麻豆孤注一掷 OpenAI跋扈爬虫，把一家公司都给爬宕机了，CEO：堪比DDoS

万万没念念到麻豆孤注一掷，能把一家公司网站给搞宕机的元凶，果然是 OpenAI 跋扈爬虫的机器东说念主——GPTBot。

（GPTBot 是 OpenAI 早年前推出的一款用具，用来自动握取系数互联网的数据。）

就在这两天，一家 7 东说念主团队公司（Triplegangers）的网站短暂宕机，CEO 和职工们赶忙排查问题到底出在的那里。

不查不知说念，一查吓一跳。

罪魁首恶恰是 OpenAI 的 GPTBot。

从 CEO 的描写中来看，OpenAI 爬虫的"攻势"是有点跋扈在身上的：

咱们有特地 65000 种居品，每种居品都有一个页面，然后每个页面还都有至少三张图片。

在分析了公司上周的日记之后，团队进一步发现，OpenAI 使用了不啻 600 个 IP 地址握取数据。

△Triplegangers 职业器日记：OpenAI 机器东说念主未经许可跋扈爬虫

如斯规模的爬虫，就导致这家公司网站的宕机，CEO 以至无奈地示意：

这基本上等于一场DDoS 挫折。

嗯，AI 大公司跋扈爬虫，却由小公司来买单。

这家袖珍团队的碰到，亦然激发了不少网友们的商讨，有东说念主以为 GPTBot 的作念法并不是握取，更像是"偷窃"的委婉说法：

也有网友现身示意有一样的阅历，自从拦阻了大公司的批量 AI 爬虫，省了一大笔钱：

被爬虫到宕机，还不知说念被爬走了什么

那么 OpenAI 为什么要爬虫这家初创企业的数据？

肤浅来说，它家的数据确乎属于高质料的那种。

据了解，Triplegangers 的 7 名成员破耗了十多年的技艺，打造了堪称最大"东说念主类数字孪生"数据库

网站包含从实质东说念主类模子扫描的 3D 图像文献，何况像片还带有扎眼的标签，涵盖种族、年事、纹身与疤痕、多样体型等信息。

这关于需要数字化再现确凿东说念主类特征的 3D 艺术家、游戏制作家等，另类图片五月激情无疑具有蹙迫价值。

麻豆孤注一掷

固然 Triplegangers 网站上有一个职业条件页面，内部明确写了不容未经许可的 AI 握取他们家的图片。

但从刻下的恶果上来看，这王人备莫得起到任何作用。

要点在于，Triplegangers 莫得正确设立一个文献——Robot.txt。

Robot.txt 也称为机器东说念主放弃公约，是为了告诉搜索引擎网站在索引汇集时不要爬取哪些内容而创建的。

也等于说，一个网站淌若不念念被 OpenAI 爬虫，那就必须正确设立 Robot.txt 文献，并带有特定标签，明确告诉 GPTBot 不要走访该网站。

但 OpenAI 除了 GPTBot 除外，还有ChatGPT-User和OAI-SearchBot，它俩也有各自对应的标签：

而且凭证 OpenAI 官方发布的爬虫信息来看，即便你立即正确建设了 Robot.txt 文献，也不会立即奏效。

香蕉鱼免费观看在线视频下载

因为 OpenAI 识别更新这个文献可能需要 24 个小时……

CEO 老哥对此示意：

如果一个网站莫得正确设立 Robot.txt 文献，那么 OpenAI 和其它公司会以为他们不错运用自若地握取内容。

这不是一个可选的系统。

正因如斯，也就有了 Triplegangers 在责任技艺段网站被搞宕机，还搭上了高额的 AWS 用度。

适度好意思东技艺的本周三，Triplegangers 照旧按照要求设立了正确的 Robot.txt 文献。

以防万一，团队还建设了一个 Cloudflare 账户来拦阻其它的 AI 爬虫，如 Barkrowler 和 Bytespider。

固然到了周四开工的时候，Triplegangers 莫得再出现宕机的情况，但 CEO 老哥还有个悬而未决的困惑——

不知说念 OpenAI 都从网站中爬了些什么数据，也关连不上 OpenAI ……

而且令 CEO 老哥愈加深表担忧的少量是：

如果不是 GPTBot "霸术"到让咱们的网站宕机，咱们可能不知说念它一直在爬取咱们的数据。

这个历程是有 bug 的，即便你们 AI 大公司说了不错设立 Robot.txt 来谢绝爬虫，但你们把背负推到了咱们身上。

临了，CEO 老哥也号召浩大在线企业，要念念谢绝大公司未经允许爬虫，一定要主动、积极地去查找问题。

并不是第一例

但 Triplegangers 并不是第一个因为 OpenAI 跋扈爬虫导致宕机的公司。

在此之前，还有Game UI Database这家公司。

它收录了超 56000 张游戏用户界面截图的在线数据库，用于供游戏打算师参考。

有一天，团队发现网站加载速率变慢，页面加载技艺延迟三倍，用户经常碰到 502 非常，首页每秒被再行加载 200 次。

他们一启动也以为是遭到了 DDoS 挫折，恶果一查日记……是 OpenAI，每秒查询 2 次，导致网站真的瘫痪。

但你以为如斯跋扈爬虫的惟有 OpenAI 吗？

非也，非也。

举例Anthropic此前也被曝出来过一样的事情。

数字居品责任室Planetary的首创东说念主 Joshua Gross 曾示意过，他们给客户再行打算的网站上线后，流量激增，导致客户云本钱翻倍。

经审计发现，无数流量来自握取机器东说念主，主淌若 Anthropic 导致的意外旨流量，无数申请都复返 404 非常。

针对这一表象，来自数字告白公司 DoubleVerify 的一份新揣度显露，AI 爬虫在 2024 年导致"一般无效流量"（不是来自确凿用户的流量）增多了 86%。

那么 AI 公司，尤其是大模子公司，为什么要如斯跋扈地"吸食"汇集上的数据？

一言蔽之，等于他们太缺用来磨真金不怕火的高质料数据了。

有揣度揣摸过，到 2032 年民众可用的 AI 磨真金不怕火数据可能就会阔绰，这就让 AI 公司加速了数据网罗的速率。

也正因如斯，OpenAI 谷歌等 AI 公司为了赢得更多"独家"视频用于 AI 磨真金不怕火，当今也正纷繁向 UP 主们重金求购那些"从未公开"的视频。

而且连价钱都标好了，如果是为 YouTube、Instagram 和 TikTok 准备的未发布视频，每分钟出价为 1~2 好意思元（总体一般是 1~4 好意思元），且凭证视频质料和措施的不同，价钱还能再涨涨。

那么你对这一表象有什么观点呢？宽宥在驳斥区留言商讨 ~

参考清醒：

[ 1 ] https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

[ 2 ] https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/

[ 3 ] https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-from-the-entire-internet-automatically/

[ 4 ] https://platform.openai.com/docs/bots/overview-of-openai-crawlers

[ 5 ] https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9麻豆孤注一掷

上一篇：ai 巨乳 2025年上海落户计谋及条目！上海居转户累计时刻是何如算的？下一篇：什么叫做爱婴儿才能发育受什么影响宝宝各个月份的才能发育

八月未央 自慰

八月未央自慰