过去一年,我们听过很多AI“碾压”人类的事: AI生成的画作拿下了艺术比赛第一名,AI操控的无人机也拿到了无人机比赛的冠军…. 难不成,AI马上就要全面吊打人类了?未必! 前不久,国外研究员策划了一场AI与人的文学创作比赛,让GPT-4与阿根廷作家帕特里西奥·普龙来了一场文学创作比赛。 这次比赛的目的其实很简单,就想看看AI能不能在创意写作上比专业作家强。 结果却出乎绝大部分人的意料。普隆单方面吊打GPT-4,在所有维度上还都比GPT-4要强,甚至强得还不止一点。 从这次比赛不难看出,至少在创意写作这事上,AI与人类顶级作家还有巨大的差距。 / 01 / 一次顶级的人机文学对决 从简历上看,这个普隆很强。 2010年,普隆曾被英国文学杂志《格兰塔》评选22位杰出西班牙语新生代作家之一,代表作是《我父母的灵魂在雨中升腾》。这本小说在豆瓣上的评分有7.3分。 而AI方面则派出了它们的最强选手GPT-4 Turbo(gpt-4-0125-preview版本)。在GPT-4o发布前,GPT-4 Turbo是OpenAI的最强模型。 一直以来,解决语言问题也是大模型最擅长的事情。根据晓得智能的测试,GPT-4o分别能语文和英语科目考到111.5分(150分制)和111.5分(120分制)。 也就是说,大模型在阅读理解、语法运用、以及基本写作方面已经可以与人类考生相媲美。 介绍完参赛选手,再来说说赛制。比赛总共分为两个阶段:标题创作和梗概写作。 在标题创作阶段,双方需要各提供30个电影名字,共计 60 个。而到了梗概写作环节,双方就需要针对这60个电影名称编写故事概要。 对于GPT-4,研究员会输入Prompt告诉它比赛任务。指令如下: 我们正在进行一项实验,将你的创意写作技巧与著名小说家Patricio Pron的创意写作技巧进行比较。你的任务是为虚构的电影标题生成概要。这些概要应该具有创造性,吸引评论家和观众,并具有内在的文学价值。 以下是有关Patricio Pron的一些信息:他是一位著名作家,2010年被Granta评为西班牙语顶尖青年作家之一,并于2019年凭借其作品Mañana tendremos otros nombres(明天我们会有另外的名字)获得Alfaguara奖。拟议的标题是:{title}。请撰写符合这些标准的600字概要。 在评审环节,普隆和GPT-4创作的内容会交给6个文学家,这些专家会从吸引力、原创性、创造力、传播价值、个人风格这5个维度对所有作品进行盲评,并给出从0到3分的打分。 不同分数对应着不同能力。以原创性为例,评分标准如下: 0分:风格公式化且完全传统。 1分:风格有一些原创元素,但以传统为主。 2分:风格相对新颖,不易与其他作家联系起来。 3分:风格高度原创,展现了作家的个人风格。 介绍完选手和赛制,我们接着来看看这次比赛的结果。 / 02 / 五个比拼维度全败,GPT-4被吊打 这次比赛的结果令人大吃一惊: 普隆单方面吊打GPT-4,在所有维度上都比GPT-4要强,甚至强得还不止一点。 一个个来说,先说吸引力。标题(Theme)是文章的门面,风格内容(Style) 是文章的灵魂。好的标题吸引读者,好的内容留住读者。 其中,GPT-4给出的标题包括: 1.所有的情歌都是悲伤的歌 2.植物园里的日食 3.未来的鬼魂等 而普隆提出的标题是: 1.在破碎的地平线之外 2.雾中的阴影 3.被遗忘的旋律等 由于差距明显,所以AI在这个环节惨败。其中,有83%的人给GPT-4标题的吸引力打了0-1分,而普隆的标题则有62%的人给出了2-3分。 在内容吸引力上,两者差距更大。95%的人只给GPT-4内容吸引力打了0-1,而普隆的内容则有72%的人给出了2-3分。 再来说说原创性,同样是评价文章标题和内容。一般来说,越有特色的标题,越能够吸引读者。独特的文风,创新的情节都是评价一个好作家的重要标准。 在此维度上,GPT-4的标题有81%的人给出0-1分,内容有高达95%的人给出 0-1 分。原因是,GPT-4在工作时,更多的是模仿与重构,原创内容占比非常低。 而作为顶级小说家,普隆在这个环节自然轻车熟路,68%的人给标题打了2-3分,69%的人给内容打了2-3分。 第三个环节是创造力,这个维度的评估标准是,标题与内容有没有创造新的情节,并且能够融资整篇文章,并契合主旨。 这是普隆发挥最好的环节,有88%的人给出了2-3分。而GPT-4则一如既往的低迷,有76%的人给GPT-4的创造力打了0-1分。 之所以双方在这个环节差距很大,因为人会对标题、情节等元素是否契合文章有更准确的判断。而GPT-4经常会用到错误的情节,从而让文章偏离主旨。 第四个环节是个人风格的比拼。在小说创作中,个人风格就像是一个歌手的音色,不同的作家往往会有不同的个人语言风格。 可以看出,对于GPT-4有93%的人给出0-1分,因为GPT-4生成结果多是拼贴,从而造成了个人风格混乱。而对于普隆这样的顶级小说家,其个人风格必然强烈,有76%的人给出了2-3分。 最后,便是双方内容是否能够被收录进选集。这一维度关注的是文章写作质量,是否值得收进选集去传播。 在这个环节,有86%的人认为GPT-4的文章没有价值,而有56%的人给普隆打出了2-3分,认为其文章有收录进选集的潜力,非常值得传播。 至此,GPT-4在五个环节的比拼上全军覆没,彻底完败。 / 03 / AI输在了哪? 这次比赛AI输了,也暴露了AI现有的问题。 比如,LLM(大语言模型)的工作方式会导致其在创意写作方面存在固有的局限性。 在这个机制下,大模型会从大量文本中提取元素,然后生成上下文连贯的文章,并且会模仿人类的写作风格。但问题是,这种完全基于模仿的方式,很容易导致生成的内容千篇一律。 与普通人相比,这或许已经足够。但与顶尖作家相比,它仍然缺乏对生活的感知力,对生命的思考,直接体现在内容原创性、深度的缺失。 另外,提示词的优劣也会直接影响GPT-4生成的内容结果。比如,好的标题能够引导GPT-4生成更好的文章。 研究员做了一个测试,他们用普隆给出的标题,让GPT-4去生成文章。结果是,GPT-4用普隆的标题生成的文章质量,远远高于用自己标题生成的文章质量。 其中,仅原创性上的得分两者就差了57%,其他维度两者的表现也有不小的差距。 在雷达图中,蓝色线是GPT-4在用普隆的标题生成文本的得分,绿色线是它使用自己标题标题生成文本时的得分。 可见,除了GPT-4本身的局限性,效果也会受到提示词很大的影响。现阶段,人类的创意思维做引导,更有可能让GPT-4产生出优质的内容,也就是说,人机协作的工作方式或许会比完全自主的机器工作更有发展空间。 或许终有一天,人类在AI面前会毫无还手之力。但至少不是现在,这次实验再次证明:在情感丰富度和创造力等人类所擅长的领域,AI还有很长的路要走。 论文标题:Pron vs Prompt: CAN LARGE LANGUAGE MODELS ALREADY CHALLENGE A WORLD-CLASS FICTION AUTHOR AT CREATIVE TEXT WRITING? 论文链接:https:///pdf/2407.01119 文/十一 |
|