AI Alignment经常被定义为“控制AI实现设计者的目标“。但按字面意思理解的话这个定义就过于宽泛了:如果一个情感分类器错误地将“我喜欢这个产品”分类为负面,这算是对齐问题吗?如果是,那么大多数AI研究都算Alignment,因为大多数AI研究都想提高准确率。但如果所有AI研究都能叫Alignment,那我们也就没必要特地另外创造“对齐”这个术语。因此,我们需要缩小“AI Alignment”的范围,使这个术语有意义。我自己的定义是:(1)“控制AI系统以实现设计者的预期目标“(上面原本的定义)除去(2)“让AI系统更加“有能力”,例如更好的GLUE/MMLU准确性,更成功地说服人类,增加广告浏览次数,得到更多的B站三连和知乎点赞等。”等下……不提高AI的能力,那还剩下啥研究可做?以下是两个AI Alignment的子方向:(i) 明确目标:明确我们从AI系统中想要什么,尤其是当评估是主观且因情况而异的,以及 (ii) 监督:可靠地评估AI系统,特别是在AI系统比单个人类更强的任务上。(i) 明确目标:明确AI应该优化什么。AI做什么对用户是最有用的?一般研究人员和系统设计者很难预测它们,因为它们经常是主观的且依赖于用户具体情境的。主要因素有:① 用户的偏好与系统开发者不同、因情境而异、并且难以在研究环境中重现。举个例子:为了提供最大的价值,语言模型应该给研究AI的教授和报道八卦的记者推荐不同的文章。即使是同一个人,在给男女朋友发消息和写论文时也会希望AI提供不同风格的文字。然而,由于系统开发者无法精确了解实际用户的偏好,在部署系统之前他们只能在自己的偏好上训练和测试。因此,语言模型在部署过程中的正确行为是“未明确的”(underspecified)。具体研究问题:
② 系统设计者与其它利益相关者观点不一致。人们有不同的价值观和偏好;例如,有些人更看重一个系统是否有用,而非它是否安全。即使道德观念相同(比如不能在网络上用言语对他人进行伤害),在执行中大家也会产生不同的意见;举个例子,Sap等人在2022年发现,不同族裔/背景的注释者可能会不同意什么样的文字会伤害到他人。因此,使AI系统与一群有不同偏好的人们对齐本质上也是一个社会问题,需要一个公平、包容不同意见的解决方案。因为人本来就有不同的意见,即使AI系统变得更加强大,这份不同也不会自动消失。具体研究问题:
AI系统应如何回应具有不同道德观的用户?
如果大家有不同的偏好,如何找到一个大多数人能同意的观点?
(ii) 监督:当人类评估者的能力不如AI时,如何可靠地评估AI系统便成了个问题。即使评判标准客观且不随着情境变化,这还是很难。两个主要因素有:① 评估需要花费大量时间和专业知识,因此非常昂贵的。假设ChatGPT写了一个3000字文章的摘要,评估者需要有耐心先阅读整篇文章;如果它起草了法律文件,我们需要聘请律师来评估;如果它生成了一个计算机程序来实现一个由基于机器学习公平性论文的算法支持的Web应用,并且在GPU上运行得很快,我们需要聘请同时擅长Web开发、公平机器学习和并行系统编程的专家。这些评估任务对于专家来说都会很难。随着AI系统执行更复杂的任务,这个问题只会变得更难,因为人类的进化速度赶不上AI系统不断提高的能力。具体研究问题:
如何将复杂问题(例如,对一本书进行摘要、数学问题、关于论文的问题)分解为容易监督的子部分?
我们是否可以使用AI系统来找出彼此的缺点,甚至是对彼此进行红队攻击?
非专家是否可以与AI系统合作,以超越非专家或单独的AI系统?
我们是否可以通过将困难任务简化为更简单的任务来使人们间接进行监督?(这是我自己的研究方向!)
② 人类评估者经常容易犯错去选择看上去正确但实际上不太正确的输出。ChatGPT的输出经常看上去很专业且非常自信,因此人们可能会被“欺骗“,认为它提供的错误信息也是正确的。这被称为晕轮效应。如果我们直接用粗心或有偏见的人类反馈来优化AI系统,我们最终会得到谄媚或甚至“欺骗性“的AI系统,生成看似正确实则错误的内容。这个问题会随着AI系统变得更加强大变得更糟,因为更强大的AI系统可能知道更多能误导人类的方法,并使用它们获得更高的评分。当前主流的评估方法不能解决这些问题,因为它们没考虑到评估者自身的认知局限。具体研究问题: