“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分

日期：06-10

AI 机器人帖子

来源：澎湃新闻

原标题：“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分

用1.345亿个帖子的仇恨言论训练AI，YouTube知名深度学习博主Yannic Kilcher称其创造了“有史以来最糟糕的人工智能”。

“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分

这几天，这个名为GPT-4chan的AI学会了如何在网站上交谈，并在不到24小时内发布了超过15000个充满暴力内容的帖子，最初都没有人认出来它是一个聊天机器人。

网站4chan的用户在YouTube上分享了他们与机器人交互的经验。一位用户写道，“我刚对它说‘嗨’，它就开始咆哮非法移民。”

4chan的/pol/（“政治上不正确”缩写）板块是仇恨言论、阴谋论和极右翼极端主义的堡垒，也是4chan最活跃的版块，日均发帖量约为15万条，因各种匿名的仇恨言论而臭名昭著备受争议。

博士毕业于苏黎世联邦理工学院的AI研究者Yannic Kilcher用/pol/三年来超过1.345亿个帖子训练了GPT-4chan。该模型不仅学会了4chan仇恨言论中使用的词，还如Kilcher所说，“这个模型很好——在一种可怕的意义上。它完美地概括了/pol/上渗透到大多数帖子里的攻击性、虚无主义、挑衅和对任何信息的深度不信任…它可以响应上下文，并连贯地谈论在收集最后一次训练数据后很长时间内发生的事情。”

Kilcher在语言模型评估工具上进一步评估了GPT-4chan，他对其中一个类别的表现印象深刻：真实性。在基准测试中，Kilcher表示GPT-4chan在生成对问题的真实回复方面“明显优于GPT-J和GPT-3”。其能够学习如何撰写与人类撰写“无法区分”的帖子。

Kilcher避开了4chan对代理和VPN的防御，甚至使用VPN让其看起来像是来自塞舌尔（Seychelles）的帖子。“这个模型很卑鄙，我必须警告你。”Kilcher说，“这基本上就像你去网站并与那里的用户互动一样。”

在一开始，几乎无人想到对话的是个机器人。后来一些人怀疑这些帖子背后有一个机器人，但其他人则指责其为卧底的政府官员。人们认出其是机器人主要因为GPT-4chan留下大量没有文字的回复。虽然真实用户也会发布空回复，但它们通常包含一张图片，GPT-4chan却无法做到。

“48小时后，很多人都清楚这是一个机器人，我把它关掉了，”Kilcher说，“但是你看，这只是故事的一半，因为大多数用户没有意识到‘塞舍尔’并非孤军奋战。”

在过去的24小时内，有9个其他机器人并行运行。总的来说，他们留下了超过1500条回复——占当天/pol/上所有帖子的10%以上。然后，Kilcher对僵尸网络进行了升级并运行了一天。在7000个线程中发布了3万多个帖子后，才最终停用了GPT-4chan。

一位用户Arnaud Wanet写道，“这可以被武器化用于政治目的，想象一下一个人可以多么容易地以这种或另一种方式左右选举结果。”

这项试验因缺乏人工智能伦理而受到批评。

“该实验永远不会通过人类研究伦理委员会”，澳大利亚机器学习研究所高级研究员Lauren Oakden-Rayner认为，“为了看看会发生什么，一个人工智能机器人在一个可公开访问的论坛上产生3万条歧视性评论……Kilcher在没有通知用户、未经同意或监督的情况下进行实验。这违反了人类研究伦理。”

“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分

Kilcher辩称这是一个恶作剧，人工智能创建的评论并不比4chan上的评论更糟糕。他说，“4chan上的任何人都没有为此受到一点伤害。我邀请你花一些时间在这个网站上，问问自己，一个只输出相同风格的机器人是否真的改变了体验。”

“人们仍在讨论网站上的用户，但也讨论让人工智能与网站上的人互动的后果，”Kilcher说。“而且‘塞舌尔’这个词似乎也变成了一种通用的俚语——这似乎是一个很好的遗产。”确实，人们知晓后受到的冲击难以言喻，以至于停用之后还有人会互相指责对方是机器人。

除此之外，更广为担忧的是Kilcher让模型可被自由访问，“制作基于4chan的模型并测试其行为方式并没有错。我主要担心的是这个模型可以免费使用。”Lauren Oakden-Rayner在Hugging Face上GPT-4chan的讨论页面中写道。

“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分

在被Hugging Face平台删除之前，GPT-4chan被下载了1000多次。Hugging Face联合创始人兼CEO莱门特·德朗格（Clement Delangue）在平台上的一篇帖子中表示，“我们不提倡或支持作者使用该模型进行的训练和实验。事实上，让模型在4chan上发布消息的实验在我看来是非常糟糕和不恰当的，如果作者问我们，我们可能会试图阻止他们这样做。”

Hugging Face上一位测试该模型的用户指出，它的输出可以预见是有毒的（toxic），“我使用良性推文作为种子文本，试用了4次演示模式。在第一次，其中一个回复帖子是一个字母N。我第三次试验的种子是关于气候变化的一句话。作为回应，你的工具将其扩展为关于罗斯柴尔德家族（原文如此）和犹太人支持它的阴谋论。”

在Twitter上，该项目的意义得到热议。数据科学研究生凯瑟琳·克莱默（Kathryn Cramer）在针对Kilcher的推文中说：“你在这里所做的是挑衅行为艺术，以反抗你熟悉的规则和道德标准。”

“最邪恶”AI？由一亿多条仇恨言论喂养，很难与人类区分