【原】AI厂商为数据狂，竟然都开始“DDos”小网站了

三易生活 2024-08-02 发布于湖北

展开全文

“AI大模型即将遇到数据荒”这件事，从2023年开始就成为了AI开发者对未来最大的担忧，甚至有研究团队已经给出了高质量语料数据将会在2026年耗尽的预测。由此也使得手握大量数据的互联网内容平台、新闻机构、出版商突然发现，在AI时代“卖铲子”这活不仅英伟达能干，自己好像也能做。

而AI厂商则很快发现，自己头上的大山除了英伟达，还要多出个数据供应商。尽管谷歌、OpenAI等实力雄厚的大厂可以选择“银弹攻势”，一边找英伟达买算力卡，一边与Reddit等网络社区及新闻媒体达成合作，但资金丰沛的大厂毕竟是少数，绝大多数初创企业、哪怕是AI独角兽都缺钱。

AI大模型需要持续投喂数据来进行迭代，可AI厂商缺钱又已经是普遍现象，如此一来就有厂商选择了用技术手段来“强取”数据。日前有消息显示，AI独角兽Anthropic无视知名维修网站iFixit的条款，使用爬虫ClaudeBot在24小时内疯狂访问近百万次。

AI厂商为数据发狂，竟开始“DDos”小网站

以至于iFixit CEO Kyle Wiens直接在社交平台向Anthropic隔空喊话，“你真的有必要在24小时内访问我们的服务器100万次吗？你不仅在不付费的情况下获取我们的内容，还占用了我们的devops资源，一点都不酷！”此外Kyle Wiens还进一步表示，“如果你想要跟我们谈谈内容许可和商业用途的话，我们就在这呢。”

AI厂商为数据发狂，竟开始“DDos”小网站

作为全球知名的消费电子产品维修网站，iFixit的市场竞争力就来源于网站上提供的几乎任何类型、任何型号电子设备对应的免费维修手册、解决方案，以及iFixit用户社区。这些电子产品的维修知识无疑就是iFixit的立身之本，因此iFixit方面也在其robots.txt文件中添加了一行特定于Anthropic爬虫的禁用指令。

随后Anthropic方面回应称，他们尊重robots.txt协议，并在iFixit实施禁令后遵守了相关规则。其实不仅仅是iFixit，全球规模最大的外包服务撮合平台Freelancer同样也是Anthropic的受害者，该公司CEO Matt Barrie也表示，ClaudeBot是最激进的爬虫，Freelancer在四小时内收到了来自Anthropic爬虫的350万次访问，远超其他AI爬虫的访问量。

AI厂商为数据发狂，竟开始“DDos”小网站

对于iFixit、Freelancer这种专注于细分赛道的“隐形冠军”，24小时内数百万次访问请求已经算得上是一次小规模的分布式拒绝服务攻击（DDoS）了。对此，Anthropic方面表示正在调查此事件，以确保其爬虫活动对同一域名的访问频率最小化，从而减少干扰。

那么问题就来了，Anthropic其实不缺钱，毕竟作为OpenAI的第一劲敌，仅亚马逊一家就对其投资了40亿美元。Anthropic方面甚至在本月初联合风险投资公司Menlo Ventures共同推出了一只1亿美元的基金Anthology Fund，为早期的AI初创公司提供支持。

没错，身为AI独角兽的Anthropic已然开始“提携后辈”，玩起了大公司标配的战略投资。对此，似乎就只能用Anthropic的经营策略是“该省省，该花花”，能不花的钱就一定不花来解释了。

AI厂商为数据发狂，竟开始“DDos”小网站

正因如此，Anthropic的做法才让iFixit、Freelancer的CEO“破防”。作为一家在业界颇有声望的AI独角兽，Anthropic的做法毫无疑问是开了个坏头。要知道反爬虫策略本身是不可能完全杜绝爬虫的，因为信息只要对外提供，就必然有被抓取的可能。在这一基础上的robots.txt，其实就是一个针对网络爬虫的君子协议，也正是谷歌、雅虎等大厂的带头遵守，才有了过去二十年间互联网世界的秩序。

现在明明Anthropic是有向内容平台购买数据的预算，却偏偏选择用技术手段来“零元购”，岂不是就意味着其他囊中羞涩的AI初创企业也会有样学样。可偏偏当下是AI创业的热潮，做AI的厂商不知凡几，如果大家都效仿Anthropic这一玩法，高频次、大流量的访问必然会让网站“压力山大”，已经与DDoS网络攻击行为无异了。

AI厂商为数据发狂，竟开始“DDos”小网站