搜索

分享

QQ空间 QQ好友新浪微博微信

AI高分通过美国8年级科学考试：常识题推理题都能行，不服可同台对战

2016xing 2019-09-06

展开全文

只要60分飘过八年级科学考试，就能收获8万美元奖金（折合人民币57万元）。

只不过，参加考试的“学生”，必须是个AI。

在长达四年的时间里，700多名计算机科学家参与到这项AI竞赛当中，但他们的AI纷纷折戟，没有一个能拿到及格分。

但现在，历史新纪录来了。艾伦研究所的一个名叫Aristo的AI搞定了这件事，不仅在8年级科学考试中答对了90%以上的问题，连高三的考试，它都能答对80%！

这对于AI来说，有点鹅妹子嘤了。

语言理解+逻辑，难倒AI

虽然AI下围棋能赢世界冠军，打德扑还会诈唬，IBM的Watson也早在智力问答《危险边缘（Jeopardy！）》中大杀四方，但想要通过美国八年级科学考试，对AI来说仍然是一大挑战。

即使排除了图片题和图表题，科学考试中的问答依然不是简单的自然语言理解问题，还涉及到逻辑推理乃至常识——答案并不是明显存在于某处文本中的。

举个例子，在考试中，有的问题比较简单，只涉及到信息检索：

一组协同工作以执行特定功能的组织称为：
（1）器官（2）有机体（3）系统（4）细胞

但有的问题它长这个样子：

什么样的改变会导致区域内的松鼠数量减少？
（1）食肉动物数量减少
（2）松鼠之间的竞争减弱
（3）食物增加
（4）森林火灾发生次数增多

这可就不是AI光靠学习规则就能回答的问题了，其中牵扯到的逻辑推理，对人类而言或许是小菜一碟，但对AI来说，并没有那么简单。

甚至还有多选问题。

就在AlphaGo震惊世界的2016年，最强的AI系统也只能在纽约州八年级科学考试中达到59.3%的准确率，遗憾未能及格。

基于Bert的Aristo

Aristo是怎样实现突破的呢？

其实，它是站在了巨人的肩膀之上。

Aristo基于艾伦研究所的深度语境化词表征ELMo（NAACL 2018最佳论文）和大名鼎鼎的BERT开发（现已替换为RoBERTa），集八种类型智能体于一身，有的智能体负责在数据库中查找答案，有的负责检查相关概念列表（元组），还有的专门执行逻辑推理。

每个智能体都会为答案打分，而Aristo会对不同的分数进行加权，最终做出选择决策。

在实验测试中，研究人员让Aristo参加了2017年到2019年各个年级的纽约州会考，结果显示，Aristo在4年级和8年级的考试中正确率都到达了90%左右，符合纽约州教育部认定的“优秀标准”（85%）。而12年级考试的正确率则是83.54%，离优秀只差了一点点。

在此之前，这些考试数据并不在Aristo的训练集中。

并且，现在Aristo的答题范围不仅仅局限在文字问题中了，涉及到计算机视觉的图表题，它也正在拿下。

在接受媒体采访时，Aristo项目的高级经理Peter Clark表示：

Aristo的目标不仅仅是通过科学考试，而是创造一个对科学有更深入理解的系统。

虽然如从事类似研究的微软研究员Jingjing Liu所说，实际上，Aristo仍然不具备“真正”的智能，我们无法将Aristo的能力与人类学生的推理能力相比较。但无疑，它创造了一个很好的应用方向。

比如更强大的搜索，比如个性化教育。

对了，Aristo现在有了在线Demo，可以在线调戏哟。

传送门

Demo：
http://aristo-demo./

数据集：
http://data./ai2-science-questions/

相关论文：
https:///papers/papers-aristo-2019.html

— 完 —

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 2016xing > 《人工智能》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

2016xing

关注对话

TA的最新馆藏

科学家发现短命基因：携带者更易在69岁前死亡，每25人有1人携带
男性得了前列腺肥大怎么办？医生坦言：牢记这几点，有效促进康复
几点睡觉算是熬夜？研究发现：不是11点，也不是12点，很多人错了
老年痴呆提前34年就有征兆！你以为的好习惯，其实是痴呆的元凶！《柳叶刀》发布12大干预因素，8类食物让大脑保持年轻
越来越多人得癌症，和蚝油有关？医生劝告：4种调味品，尽量少碰
王敏清：50年没感冒，无三高，靠的就是这6招！

喜欢该文的人也喜欢更多

热门阅读换一换