强！阿里算法团队开源AI核心技术，95%算法工程师受用

金陵一棵树 2018-02-06

展开全文

近几天，阿里又给工程师送上了一份特殊的“知识年货”：《强化学习在阿里的技术演进与业务创新》。这是一本业界首本深入阐述强化学习落地实践案例的书，由阿里核心算法团队，毫无保留倾力打造。更为难能可贵的是，阿里爸爸竟然免费开放，供大家自由下载！

如何免费查看/下载？

长按识别以下二维码，关注“阿里技术”官方公众号，回复“强化学习”，即可免费在线阅读、下载此书。

50万工程师关注的阿里技术公众号

就在阿里巴巴算法团队推出该书后，就有小白同学来问超模君：

我只知道机器学习、深度学习，阿里巴巴弄的这个“强化学习”又是什么？

其实呢，关于强化学习的理解，有人说：强化学习是最接近于自然界动物学习的本质的一种学习范式。无论是AlphaGo 在围棋大赛中战胜世界冠军，还是Deepmind 的自动学习玩 ATARI 游戏，背后的强大武器都是深度强化学习技术。

还没明白，那超模君再举个简单的例子：

大家应该都还记得AlphaGo吧，AlphaGo学习过程存在一个强化学习过程，不断地对棋谱内容进行学习，就如同人类一样，一遍学不会，那就学两遍，学到会为止。由此可见，强化学习过程在围棋程序 AlphaGo 的重要性。

强化学习是机器学习的一个分支。

可能之前大家对于机器学习的分类，只将其分为监督学习，非监督学习。其实，强化学习是机器学习的一个分支，因此有人尝试将机器学习分为：监督学习、无监督学习、强化学习。

监督学习和强化学习之间的主要区别在于收到的反馈是评估性的还是指导性的。指导性反馈提示如何达到目标，而评估性反馈告诉你达到目标的程度。

监督学习一般是基于指导性反馈来解决问题，而强化学习则基于评估性反馈解决问题。图像分类是一个带有指导性反馈的监督问题，当算法尝试分类特定数据时，它将从指导性反馈中了解到哪个是真正的类别。而评估性反馈仅仅告诉你目标的达成的程度，如果你使用评估性反馈训练分类器，那么你的分类器可能会说「我认为这是一只老虎」，然后它将得到 50 分。但是，由于没有任何语境信息，我们不知道这 50 分是什么。我们需要进行其他分类，探索这 50 分代表我们是正确还是错误的。或许 10000 是一个更好的分值，但是我们还是不知道它是什么，除非我们尝试对其他数据点进行分类。

同时，强化学习类似于一个试错学习，个体需要从其与环境的交互中发现一个好的策略，同时又不至于在试错的过程中丢失太多的奖励。

探索和利用是个体进行决策时需要平衡的两个方面。一个形象的比方是，当你去一个餐馆吃饭，“探索”意味着你对尝试新餐厅感兴趣，很可能会去一家以前没有去过的新餐厅体验，“利用”则意味着你就在以往吃过的餐厅中挑一家比较喜欢的，而不去尝试以前没去过的餐厅。这两种做法通常是一对矛盾，但对解决强化学习问题又都非常重要。

不过从“强化学习”概念提出至今，也已经历了约半个世纪的发展。但是业界始终没有一本书，能够真正系统地、剖析强化学习技术的落地实践案例。

阿里巴巴一直秉承着技术共享观念，为了与广大机器学习爱好者分享，以及本着推进深度强化学习进一步发展的愿望，阿里正式推出业界首本深入阐述强化学习落地实践案例的书：《强化学习在阿里的技术演进与业务创新》，同时也开放免费下载。

冬日尚严寒，咱们就围炉煮酒，共同翻开这本阿里技术团队带来的独特“知识年货”。

哪些人群比较适合阅读呢？

人工智能火起来之后，网上关于强化学习的资料很多，但是质量参差不齐。如何帮助技术人真正理解强化学习的本质，并且更好地掌握这项技术、用于实践，这是本书的最重要目标。

无论你是算法工程师、强化学习方向的研究人员，或者是希望转型人工智能领域的机器学习爱好者，都能从本书中汲取所需。

书籍部分目录

作为算法工程师，你将了解强化学习在实际应用中的建模方法、在业务场景下的常见问题，以及对应的解决思路，提高建模和解决业务问题的能力；

作为强化学习方向的研究人员，你将了解到更多实际的强化学习问题，扩宽研究视野；

作为机器学习爱好者，你将了解到阿里巴巴的一线机器学习算法工程师是如何发现问题、定义问题和解决问题的，将激发你的研究兴趣以及提升专业素养，实现更好的转型。

为何此书值得你投入时间学习？

本书首次在工业界系统地披露强化学习在实践应用的技术细节，其中更包含了阿里算法工程师对强化学习的深入理解、思考和创新。此书共有12个章节，作者团队跨越了多个阿里核心算法团队，可谓是最强阵容打造的黄金进阶书籍。

到目前为止，阿里根据一些具体的业务场景，将强化学习这项技术进行了很好的实践并得到大规模应用。无论是在搜索场景中的排序策略决策模型，还是推荐场景下提高用户和商品的配对效率，亦或是在智能客服方面消费者与系统互动的系统决策，以及在广告系统中依靠智能调价技术来实现更好的广告价值与效果，都处处体现强化学习技术在一系列决策中的重要角色。

基于这些业务场景，阿里将理论与实践结合，对强化学习进行了一次深度探索，并将心得和经验分享给业界同仁。当然，强化学习在阿里巴巴内部的实践远不止此，鉴于篇幅限制，这本电子书只介绍了其中的一部分。未来深度强化学习的发展必定是理论探索和应用实践的双链路持续深入。希望这本电子书能抛砖引玉，给工业届和学术界带来一些输入，共同推进深度强化学习的更大发展。

50万工程师关注的阿里技术公众号

本文由超级数学建模编辑整理