你的位置:八月未央 自慰 > 影音先锋色情bt种子 >

    
发布日期:2025-01-13 10:13    点击次数:73

麻豆 孤注一掷 OpenAI跋扈爬虫,把一家公司都给爬宕机了,CEO:堪比DDoS

万万没念念到麻豆 孤注一掷,能把一家公司网站给搞宕机的元凶,果然是 OpenAI 跋扈爬虫的机器东说念主——GPTBot。

(GPTBot 是 OpenAI 早年前推出的一款用具,用来自动握取系数互联网的数据。)

就在这两天,一家 7 东说念主团队公司(Triplegangers)的网站短暂宕机,CEO 和职工们赶忙排查问题到底出在的那里。

不查不知说念,一查吓一跳。

罪魁首恶恰是 OpenAI 的 GPTBot。

从 CEO 的描写中来看,OpenAI 爬虫的"攻势"是有点跋扈在身上的:

咱们有特地 65000 种居品,每种居品都有一个页面,然后每个页面还都有至少三张图片。

在分析了公司上周的日记之后,团队进一步发现,OpenAI 使用了不啻 600 个 IP 地址握取数据。

△Triplegangers 职业器日记:OpenAI 机器东说念主未经许可跋扈爬虫

如斯规模的爬虫,就导致这家公司网站的宕机,CEO 以至无奈地示意:

这基本上等于一场DDoS 挫折。

嗯,AI 大公司跋扈爬虫,却由小公司来买单。

这家袖珍团队的碰到,亦然激发了不少网友们的商讨,有东说念主以为 GPTBot 的作念法并不是握取,更像是"偷窃"的委婉说法:

也有网友现身示意有一样的阅历,自从拦阻了大公司的批量 AI 爬虫,省了一大笔钱:

被爬虫到宕机,还不知说念被爬走了什么

那么 OpenAI 为什么要爬虫这家初创企业的数据?

肤浅来说,它家的数据确乎属于高质料的那种。

据了解,Triplegangers 的 7 名成员破耗了十多年的技艺,打造了堪称最大"东说念主类数字孪生"数据库

网站包含从实质东说念主类模子扫描的 3D 图像文献,何况像片还带有扎眼的标签,涵盖种族、年事、纹身与疤痕、多样体型等信息。

这关于需要数字化再现确凿东说念主类特征的 3D 艺术家、游戏制作家等,另类图片五月激情无疑具有蹙迫价值。

麻豆 孤注一掷

固然 Triplegangers 网站上有一个职业条件页面,内部明确写了不容未经许可的 AI 握取他们家的图片。

但从刻下的恶果上来看,这王人备莫得起到任何作用。

要点在于,Triplegangers 莫得正确设立一个文献——Robot.txt。

Robot.txt 也称为机器东说念主放弃公约,是为了告诉搜索引擎网站在索引汇集时不要爬取哪些内容而创建的。

也等于说,一个网站淌若不念念被 OpenAI 爬虫,那就必须正确设立 Robot.txt 文献,并带有特定标签,明确告诉 GPTBot 不要走访该网站。

但 OpenAI 除了 GPTBot 除外,还有ChatGPT-User和OAI-SearchBot,它俩也有各自对应的标签:

而且凭证 OpenAI 官方发布的爬虫信息来看,即便你立即正确建设了 Robot.txt 文献,也不会立即奏效。

香蕉鱼免费观看在线视频下载

因为 OpenAI 识别更新这个文献可能需要 24 个小时……

CEO 老哥对此示意:

如果一个网站莫得正确设立 Robot.txt 文献,那么 OpenAI 和其它公司会以为他们不错运用自若地握取内容。

这不是一个可选的系统。

正因如斯,也就有了 Triplegangers 在责任技艺段网站被搞宕机,还搭上了高额的 AWS 用度。

适度好意思东技艺的本周三,Triplegangers 照旧按照要求设立了正确的 Robot.txt 文献。

以防万一,团队还建设了一个 Cloudflare 账户来拦阻其它的 AI 爬虫,如 Barkrowler 和 Bytespider。

固然到了周四开工的时候,Triplegangers 莫得再出现宕机的情况,但 CEO 老哥还有个悬而未决的困惑——

不知说念 OpenAI 都从网站中爬了些什么数据,也关连不上 OpenAI ……

而且令 CEO 老哥愈加深表担忧的少量是:

如果不是 GPTBot "霸术"到让咱们的网站宕机,咱们可能不知说念它一直在爬取咱们的数据。

这个历程是有 bug 的,即便你们 AI 大公司说了不错设立 Robot.txt 来谢绝爬虫,但你们把背负推到了咱们身上。

临了,CEO 老哥也号召浩大在线企业,要念念谢绝大公司未经允许爬虫,一定要主动、积极地去查找问题。

并不是第一例

但 Triplegangers 并不是第一个因为 OpenAI 跋扈爬虫导致宕机的公司。

在此之前,还有Game UI Database这家公司。

它收录了超 56000 张游戏用户界面截图的在线数据库,用于供游戏打算师参考。

有一天,团队发现网站加载速率变慢,页面加载技艺延迟三倍,用户经常碰到 502 非常,首页每秒被再行加载 200 次。

他们一启动也以为是遭到了 DDoS 挫折,恶果一查日记……是 OpenAI,每秒查询 2 次,导致网站真的瘫痪。

但你以为如斯跋扈爬虫的惟有 OpenAI 吗?

非也,非也。

举例Anthropic此前也被曝出来过一样的事情。

数字居品责任室Planetary的首创东说念主 Joshua Gross 曾示意过,他们给客户再行打算的网站上线后,流量激增,导致客户云本钱翻倍。

经审计发现,无数流量来自握取机器东说念主,主淌若 Anthropic 导致的意外旨流量,无数申请都复返 404 非常。

针对这一表象,来自数字告白公司 DoubleVerify 的一份新揣度显露,AI 爬虫在 2024 年导致"一般无效流量"(不是来自确凿用户的流量)增多了 86%。

那么 AI 公司,尤其是大模子公司,为什么要如斯跋扈地"吸食"汇集上的数据?

一言蔽之,等于他们太缺用来磨真金不怕火的高质料数据了。

有揣度揣摸过,到 2032 年民众可用的 AI 磨真金不怕火数据可能就会阔绰,这就让 AI 公司加速了数据网罗的速率。

也正因如斯,OpenAI 谷歌等 AI 公司为了赢得更多"独家"视频用于 AI 磨真金不怕火,当今也正纷繁向 UP 主们重金求购那些"从未公开"的视频。

而且连价钱都标好了,如果是为 YouTube、Instagram 和 TikTok 准备的未发布视频, 每分钟出价为 1~2 好意思元(总体一般是 1~4 好意思元),且凭证视频质料和措施的不同,价钱还能再涨涨。

那么你对这一表象有什么观点呢?宽宥在驳斥区留言商讨 ~

参考清醒:

[ 1 ] https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

[ 2 ] https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/

[ 3 ] https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-from-the-entire-internet-automatically/

[ 4 ] https://platform.openai.com/docs/bots/overview-of-openai-crawlers

[ 5 ] https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9麻豆 孤注一掷



  
友情链接:

Powered by 八月未央 自慰 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024