【AAAI2021】缓解语言模型政治偏见

520jefferson 2021-02-06

展开全文

当前的大规模语言模型可能由于其训练数据而产生政治偏见，当将它们部署在现实环境中时可能会导致严重的问题。

在本文中，我们提出了用于衡量GPT-2生成中的政治偏见的指标，并提出了一种强化学习（RL）框架，用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励，我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏见生成。

在对政治偏见敏感的三个属性（性别、位置和主题）的实证实验中，我们的方法根据我们的指标和人工评估很好地减少了偏见，同时保持了可读性和语义一致性。

https://www.cs./~rbliu/aaai_copy.pdf

专知便捷查看

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 520jefferson > 《机器学习/深度学习/tensorflow》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

520jefferson

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换