由于当前大语言模型在输入长度和记忆上的限制,对于过长的输入以及多轮对话(很多次的对话)来说都无法很好的支持。Embeddings作为一种可以保存语义的实值向量,可以有效地缓解大语言模型的诸多限制。甚至OpenAI在官方教程中也专门出了一期教大家如何用embedding来解决大模型长输入的问题:https://www./blog/1051681543488862 。 ![]() 然而奇怪的是,相比较大量的大语言模型的开源数据集,业界并没有很多embedding数据的开放。目前可能是最强的embedding抽取模型——OpenAI的embeddings(别奇怪,它的模型就叫这个名字)也是一个收费的模型。今天,一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集,完全开源。 Alexandria项目此次开源的arXiv的标题和摘要embeddings属于Alexandria项目的一部分。这个项目的目标是将互联网的数据集变成embeddings。而arXiv论文标题和摘要是第一部分。并表示未来将开源更多的数据集。 全球很多问题都可以归纳为搜索、聚类、推荐或者分类。而embeddings都可以在问题中发挥巨大的价值。在机器学习和自然语言处理中,embedding是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。embedding向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。 ![]() 简单来说,embedding就是一个N维的实值向量,它几乎可以用来表示任何事情,如文本、音乐、视频等。而embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的embedding可以表示单词的语义,主要是因为这些embedding向量是根据单词在语言上下文中的出现模式进行学习的。 此外,embeddings也是一个一次性的成本投入,并且十分便宜。以OpenAI的embeddings为例, 尽管embeddings价值巨大且很便宜,但是开源的embeddings数据集却几乎没有。因此,小哥做了这个项目。 Alexandria开源的arXiv论文embeddings数据集此次开源的arXiv数据集包括2个部分,一个是论文标题的embeddings,一个是论文摘要的embeddings,这个大概也是因为这两个部分可能避免版权的问题。具体如下: 上述数据均使用Instructor XL模型抽取。这是基于Apache2.0开源的embedding模型:https:///hkunlp/instructor-xl 此外,小哥还透露下周将公开基于这个embedding数据集做的arXiv论文检索。 总结这份arXiv的论文标题和摘要的embeddings数据集的开源在twitter上引起了很大的关注。原文发布不到24小时已经有80多万次的查看。 小哥总结到,他觉得这个项目本身并不酷,但是也很容易语料会比较火。基于原始数据集做embeddings并不难,难得是如何一直更新。 小哥名叫Will DePue,也是一个神奇的人,看简历是00后,2003年出生。2021年以UCLA首届Geffen Academy的第二名成绩毕业。UCLA的Geffen Academy是一个为6-12年级学生服务的大学附属学校。他现在在密歇根大学学习计算机科学(CS),并计划在2025年毕业,但现在暂时休学了。 他也是WebGPT的作者,这是一个3周前发布的可以基于WebGPU在浏览器中运行GPT模型的开源项目。 |
|