谷歌发大招：搜索全面AI化，不用关键词就能轻松“撩书”

sjw0923cn 2018-04-15

展开全文

新智元报道

来源：Google Research

【新智元导读】昨天，谷歌发布“Talk to Books”（撩书？？）和一个名为Semantris的游戏。这两项都是基于自然语言文本理解，用户能够凭语义而非关键词来实现搜索功能。这些创新来源于“在向量空间中表示语言”想法的延伸，以及词向量模型的发展。

未来的搜索，可能不需要输入关键词，直接表达想法就好。

谷歌昨晚放出大招：上线Semantic Experiences（语义体验）网站，网站有两项特殊功能，一个是“Talk to Books”（撩书？？），一个是名为Semantris的语义联想游戏。

这两个大招都是基于自然语言文本理解，用户能够凭语义而非关键词来实现搜索功能。

过去几年里，自然语言理解（Natural language understanding）有了很大发展，部分原因是词向量（word vectors）的发展使得算法能够根据实际语言使用的例子来理解单词之间的关系。这些向量模型根据概念和语言之间的等价性、相似性或相关性将语义上相似的短语映射到相近的点。去年，谷歌已经使用语言的分层向量模型（hierarchical vector models）改进了Gmail的智能回复。

当“Talk to Books”时，只需要输入模糊的词汇，算法模型会在超过10万本书中搜索对应的每一个句子，以查找最有可能在对话中匹配的书籍，摆脱了以往通过书名或作者的搜索方式。

“Semantris”是一个单词语义联想游戏，当输入单词时，游戏会对屏幕中所有单词进行评分，简单有趣。

这篇博客由著名的未来学家、谷歌研究的工程总监Ray Kurzweil和产品经理Rachel Bernstein发布，博客地址：

https://research./2018/04/introducing-semantic-experiences-with.html?m=1

游戏试玩地址：

https://research.google.com/semantris/

谷歌还公开了论文“Universal Sentence Encoder”，论文中详细描述了这些示例所使用的模型。此外，谷歌Semantic Experiences网站还在TensorFlow平台上提供了一个预先训练好的模型供其他研究人员进行实验。

不用关键词，轻松去“撩书”

“Talk to Books”可以让用户与用机器学习训练的算法进行对话，该算法可以从人写的文本中找到相关段落的答案。

“撩书”的方法很简单：你只要输入一句话，这句话可以是一个陈述句或一个疑问句，然后而“Talk to Books”会在书中找到相应的句子，完全不依赖于关键字匹配。

比如，问“为什么天空是蓝色的?”你会得到很多不同的答案，这些答案都是在清晰的文本中显示出来的，并且显示来自于关于这个主题的书籍。

这种做法改变了以往使用标准的谷歌关键词搜索的方式，并且也不需要必须点击链接并解析文章或网页。

此外，“Talk to Books”的Web界面非常整洁、完美（更没有竞价排名的医疗小广告）。

Kurzweil和Berstein说，这个模型接受了10亿次类似的训练，比如对句子进行分析，并学会识别出好的反应可能是什么样的。“一旦你问了你的问题(或者做了一个陈述)，这些工具就会在超过10万本书中搜索所有的句子，找出那些根据句子层面的语义含义对你的输入做出反应的句子。你输入的和你得到的结果之间的关系没有预先定义的规则。

不过，“Talk to Books”并不是最完美的。TheVerge报道称，这个工具更适合回答原始的事实问题，而在处理复杂的地缘政治问题或现代文化和历史重要性的话题时表现不佳。

但是作为一个简单的Web工具，谷歌表示，这个技术能帮助改进像Gmail智能回复这样的产品，而且与书籍对话是一种以自然语义的方式搜索Web的有趣方式。更重要的是，它让我们意识到，当人工智能真正成熟到可以处理几乎所有我们抛出的问题时，未来的界面会是什么样子。

Semantris：开脑洞、发散思维的小游戏

跟“撩书”一起推出的是一款叫做Semantris的游戏，它主要测试用户单词联想能力。

举个例子，如果你把“床”（Bed）这个单词放在一个10个单词的最上面，你可能会把“睡眠”（Sleep）作为一种反应。Semantris将对这10个单词进行排序，并根据它认为床与睡眠之间的语义关系与列表中的其他单词之间的关系进行比较，最后还可以打分。

应该指出的是，很多谷歌实验也是公司收集用户数据的方法，通过给用户提供丰富的关于文字关系的信息，有助于信息技术的发展。这似乎是Semantris的案例，但无论如何，游戏是测试你自己能力的一种有趣的方式，看看软件如何判断单词之间的联系。

此外，你也可以玩一个类似tetris的游戏，它可以让你输入文字来清除屏幕上的文字块，根据你自己的假设，软件可以在彩色方块上的文字和你输入的答案之间的文字之间画出什么关联。

建模方法

谷歌使用的方法是“在向量空间中表示语言”这一想法的延伸，方法是为更大的语言块（如完整句子和小段落）创建向量。由于语言是由概念层次组成的，我们使用一个模块层级结构创建向量，每个模块考虑与不同时间尺度的序列对应的特征。如果以正确的方式训练，然后提出正确的“问题”，那么就可以用向量空间语言模型来表示相关性、同义词、反义词、部分整体关系、同形异义词以及其他许多类型的关系。谷歌在论文“Efficient Natural Language Response for Smart Reply”中描述了这种方法。

论文：

Universal Sentence Encoder：https:///abs/1803.11175

Efficient Natural Language Response for Smart Reply：https:///abs/1705.00652