相信大家对于 word embedding,word vector 的表达、模型、相关应用等已经不陌生了(可以回复代码:GH018、GH019 查看相关的一些文章),然而从 word 向 phrase, sentence, document 的发展,却还远未达到成熟的地步。今天,小S 来和大家分享一些 sentence vector 研究的进展,困惑,相关任务。主要基于的分享框架是 Macro Baroni 教授9月在 CAS Meaning in Context Symposium 的分享《What's in a Sentence Vector》。 首先,我们最关注的就是,如何求解一个 sentence vector 的表达。过去,我们常见的就是从 word vector 得到 sentence vector,小S 在这里把这种从小 unit 到大一级 unit 的方法,统一称为“composition”(并不准确,只是暂时用来描述方便)。这方面的工作,大家都不陌生,比如有:
其实除了以上这些 “composition” 的方法,还有一种基于 distributed 的思想。就像 word2vec 一样,一个 word 的表达,由它周围的 contexts 来展现;那么我们也可以把一个 sentence 就当成一个 “word”,即一个 unit,用 sentence 上下文的前后 sentence 作为它的 context 求得。这样的思想下的工作也有一些:
说完了 sentence vector 表达的两类方法,接下来的一个很自然的问题是,compositional 的方法,直接用 average 表现还凑合,那是否有必要进行其他 composition rule 的探究呢?就像大家做了那么久句法分析,能不能很好地把句法分析的结果,“自动”转换成 composition rule 从而指导 sentence vector 的表达呢?这方面的研究也已经有一些:
和表达学习密不可分,同时进行的另一方面的工作,自然是对表达的应用——一个表达到底好不好,对于 sentence meaning 建模如何,拉出来溜溜,直接上任务。从现在的研究来看,基于 sentence 的 vector 表达,非常依赖于任务——不同的任务,需要的 core sentence meaning 完全不同。这方面的任务、评价有:
关于 sentence vector,从上面的分析可以看出,还有非常多的工作(keng)值(ke)得(yi)做(tian)。大家一起干巴爹哟! 程序媛的日常的最新文章
各位好,好久不见啦!大小S因为最近都在赶论文,脑子都不转了= =不知道最近能跟大家分享什么。 结果大S刚刚突然想到,不如就跟大家分享一下在苦逼赶论文的日子里,大S喜欢采用的一些简单放松心情缓解压力的事情吧~~ 程序媛的日常·03月14日 10:57 今天想与大家分享的是图像生成中一些工作。这些工作都基于一大类模型,Generative Adversarial Networks(GAN)。 程序媛的日常·02月29日 10:07 亲爱的各位小伙伴们,好久不见啦!今天大小S为大家带来我们的第一次线上互动活动,希望大家积极参与,多多支持我们,也有机会获得我们的精美礼品哟! 程序媛的日常·02月22日 10:23 你真的了解 CNN 么,了解每个 component 的用处么,你会改进它们么?快来一起看看最新的相关工作们。 程序媛的日常·01月11日 09:06 今天会跟大家分享一些 NIPS 2015 中,我觉得还挺有趣的 general 工作,有优化相关的,有新鲜任务的,也有基于一些经典模型改进的,甚至还有一些系统工程上的经验。 程序媛的日常·2015-12-23 08:34 12月17日下午,马克.威瑟奖首位女性获奖者周源源教授首次回归北大开讲,师姐XL参加了这次周源源教授的交流会,感触挺多的,下面会摘几个片段分享下。 程序媛的日常·2015-12-21 08:56 开创了152层 deep network,成功摘取 ILSVRC2015 全(主要)类别第一名的工作,来自 MSRA 的 Deep Residual Network 的技术细节是什么?ICCV 2015 上还有什么有趣的工作? 程序媛的日常·2015-12-18 08:29 大S拿到了新鲜出炉今天刚刚在APSIPA2015上分享的Tutorial"Graph Signal Processing for Image Compression & Restoration",在这里跟大家分享。 程序媛的日常·2015-12-16 17:57 NIPS 2015 RAM workshop 中有几个看点,一个是请来了非 DL 的研究者,比如 cognitive science 方向的,带来了生物学角度的 memory 研究;二来是有很多开创性工作。 程序媛的日常·2015-12-14 07:59 继续把 NIPS 2015 Deep Learning Symposium 的论文笔记写完,这次的论文个人感觉有很多有联系,让我隐隐感到 Bayes 圣战已经再度打响…… 程序媛的日常·2015-12-11 08:58 今天分享的是 NIPS 2015 Deep Learning Symposium 中一些 references 程序媛的日常·2015-12-09 14:16 在英文写作中,可能大家感同身受的几个困惑都会是:什么时候用被动语态?学术写作是不是句子越复杂越好?我的语法都没错,为什么还是总被 reviewer 说应该找 native speaker 改改?别人总是 get 不到我想说的点怎么回事? 程序媛的日常·2015-12-07 11:50 大S一直有一个乐高梦,原先每次跟小S一起逛街经过乐高专卖店的时候都会跟小S念叨说”以后我要是有钱了,我一定要买一套大大的乐高来圆梦!”终于,虽然大S仍然没有钱,但是看到Wall-E上线的时候忍不住入手了一套,现在就来跟大家分享一下。 程序媛的日常·2015-12-04 09:12 今天这篇内容叫 ICLR 2016 Submission Highlights,包含我个人推荐一看的工作。包括:之前没接的(不太好分类的,或者分类出来就一两篇的内容)和之前总结过的精选。 程序媛的日常·2015-11-30 09:08 LSTM 作为现在极其火爆的 Neural Networks,其本身依然具有一定的神秘性。今天分享最近一年致力于解密 LSTM 和 改进 LSTM 的工作。 程序媛的日常·2015-11-25 08:16 前两天 ACML 在 HK 举办,请来了 Ruslan Salakhutdinov 教授。他给的 talk 就是 《Multi-modal Deep Learning》。今天小S 就趁热,稍微分享一下我对这边工作的了解。 程序媛的日常·2015-11-23 08:17 今天,小S 来和大家分享一些 sentence vector 研究的进展,困惑,相关任务。 程序媛的日常·2015-11-06 13:40 “三个 bound 不如一个 heuristic,三个 heuristic 不如一个trick”。致力于炼(tiao)丹(can)的各路大神早就有了各种总结,今天小S 就来分享一下自己收集的 trick 大集合——让我们实战起来! 程序媛的日常·2015-11-02 09:53 她是第二个Berkeley今年新招的教授。从MIT一路本科读到博士毕业从事系统安全,是为数不多数学功底和系统功底都很强的人。博士课题设计了一个数据库系统CryptDB,可以直接在加密的数据上不解密进行数据分析。她被誉为上帝赐给密码学的礼物! 程序媛的日常·2015-10-26 09:58 好久不见的备受欢迎的“不算太闲的闲书”系列第三期来报道了,本期推荐的有,计算语言学小品,如何科学进行学术,心智认知,茅盾文学奖,面试必备指南…… 程序媛的日常·2015-10-23 09:50 attention 个机制,其出发点是模拟了人类认知中的 attention 过程。那么,是否有可能,现在我们计算机领域“移植”的 attention 只是冰山一角呢? 程序媛的日常·2015-10-19 12:50 满碗最是一枚懒人,难得出国一趟,照片都不曾主动拍过几张,回来自然写不了游记,更做不了攻略。加之前面有Naomi的游记做榜样,对答应大S的游记实在是压力山大,一拖再拖,终于赶在大S发怒前,来此胡言乱语。 程序媛的日常·2015-10-16 09:58 最近各种沉浸式设备的报道中,虚拟现实这个词也经常出现,看着是要火的节奏。大S今天特别邀请到大牛师姐夏华木子来跟大家分享她去听CCF虚拟现实发展趋势及应用报告会的感受! 程序媛的日常·2015-10-12 12:10 大多数程序媛/员会遇到的头发问题其实只有三个呢,第一,脱发,第二,头发爱出油,第三,头发干枯分叉。小S 今天就针对这三个问题来推荐一些使用过且有效果甚至疗效显著的护发产品和护发方法。 程序媛的日常·2015-10-05 15:49 前阵子大S有幸在魔都上海参与了The Google Anita Borg Memorial Scholarship: Asia Pacific Retreat,今天大S就来跟大家分享在这繁忙的几天Retreat过程中的一些收获。 程序媛的日常·2015-10-02 10:38 如果说 LSTM 的 input/forget gate 设计,是其中一种解决 gradient vanishing 的机制,那么还有一些 variants 提出了更多可能更多灵活的机制。 程序媛的日常·2015-09-28 08:59 四篇 character-level/aware 相关的论文,可是无论从 model 到结论到实现细节都非常不一样。为啥同为 character-level 模型,做 model 的差距咋就这么大捏? 程序媛的日常·2015-09-21 09:16 洛杉矶(Los Angeles),是一座位于美国西海岸的城市,又称为“天使之城”。它的面积为1214.9Km2 ……没错这是百度百科啦,yy 根据自己四天三夜的洛杉矶之旅,主要给大家推荐三个景点: 一号公路,环球影城, 迪士尼! 程序媛的日常·2015-09-14 09:50 香港即将迎来渣打20周年马拉松比赛。小S 准备报名半马噢。今天就来分享一下平时跑步的歌曲,从影视到动画到知名乐队代表作,包罗万象,不怕不燃! 程序媛的日常·2015-09-11 13:24 今天再给大家带来三篇 Attention Mechanism 相关论文,但这次并不完全是 in NLP。选入非 NLP(非小S 擅长领域)的论文是有特别的考虑,因为它“超越”了 Attention! 程序媛的日常·2015-09-07 14:57 这几天微博上有一类模型,“再次”引起了大家的注意——Attention-based Models。其实这个 model 已经出现两年多啦,今天小S 就总结一下几篇有关 Attention-based models 的论文。 程序媛的日常·2015-09-04 06:00 好久不见的美食专栏又来啦!大S作为一个有点小文艺的程序媛,偶尔还是会跟朋友一起去那边看看展览啥的,培养一下情操~同时,大S作为一枚吃货,美食也是必不可少哒!今天就来为大家推荐798周围的一系列美食~ 程序媛的日常·2015-08-31 14:17 今天由小S 在 GitHub 刷 LeetCode 上认识的好基友 Bill Ryan 给大家带来用 XeLaTeX 制作精美简历的经验。Bill Ryan 以后可能也会带来更多维护 GitHub repo 的经验,敬请期待。 程序媛的日常·2015-08-26 11:14 在百度凤巢的分享:关于 Distributed Representation 的七方面:model, properties, conclusions, theories, applications, drawbacks, hotspots。 程序媛的日常·2015-08-19 17:14 今天会跟大家分享一下,小S 观察最近的 talks/publications 后,自己总结的 word embedding 的未来热点在哪里——就跟后现代一样,我姑且叫它“后 word embedding”时期。 程序媛的日常·2015-08-17 12:37 公众号刚刚开放的时候大小S曾经跟大家宣传过关于程序媛买东西会省钱!不过一直也没找到机会跟大家分享一些tips,今天就特别邀请到了小L来跟大家分享她的韩国购物省钱攻略哟! 程序媛的日常·2015-08-14 12:03 今天难得大S也来写一次干货!大S今天就根据自己粗浅的理解来写一个简单的科普帖,帮大家区分计算机视觉,计算机图形学和数字图像处理这三个领域。 程序媛的日常·2015-08-12 10:23 在 ACL 大会期间,除了收获了不少干货知识,还有幸见到了许多女神的庐山真面目!除了上一篇 CMU 女神 V 程序媛的日常·2015-08-10 13:05 大S的好闺蜜Murmur和三个好朋友一起去了日本,花了十三天玩遍了东京、富士山、京都、奈良和大阪。大S今天就特邀Murmur来跟大家分享她的日本游记。 程序媛的日常·2015-07-22 15:28 平时虽然学习繁重,工作劳苦,但是偶尔还是可以换换脑子,多读些“闲书”——考虑到闲书又不能太闲,本期挑选了5本小S 读过,读起来认为不算烧脑费神又很有收获的好书! 程序媛的日常·2015-07-24 11:00 推荐几篇 Day 1 上午 oral presentation 的论文。1. Text to 3D Scen 程序媛的日常·2015-07-29 23:01 过去三天,学术圈的一大盛事便是第53届国际计算语言协会年会(ACL 2015)正在北京如火如荼地进行着!小S 也很荣幸地亲历其中,感受这一盛会的情况。未来几天会将这次大会的见闻和学术感受与大家分享。 程序媛的日常·2015-07-29 23:01 |
|