分享

今日头条李磊:机器写作与 AI 辅助创作

 花颜书房 2017-12-26

当然,我们要把内容创作和交流的效果提高,为每个人推荐他最喜欢的内容,这涉及到三个最核心的技术:

第一,理解人。我们要用机器学习技术去理解用户的兴趣爱好,他的年龄、性别,他过去读了哪些文章等等,把这些组合起来刻画出他的兴趣方面完整的画像。

第二,理解内容。内容不单单是图文,也可以是视频,内容的主题是什么?关键词是什么?热度是什么?这些会决定推荐质量的好坏。

第三,环境特征。在北京还是在上海还是在苏州,白天还是晚上,要因地制宜推荐不同的内容。

将这三方面结合,再利用机器学习的算法,就可以给每一位用户推荐他真正喜欢的内容。今日头条拥有海量的用户群体,为每个人都推荐他真正喜欢的内容,这离不开强大的计算能力。每天,我们的服务器会收到百亿次的请求,我们有 6 万余台服务器每时每刻都在计算每一位用户的每一次点击,我们每天处理的数据量超过 7.8PB,这些帮助我们更好地理解用户真正喜欢什么。

做好内容引擎有四个环节,包括内容的创作、内容的推荐以及围绕内容的讨论还有内容的审核。今天我会重点介绍内容的创作,我们如何应用 AI 技术帮助作者用户创作更好的内容。

首先是机器写作。为什么要研发写作机器人呢?这里有一幅图表,它画的是在我们的平台上发的文章被阅读的频次,以及不同频次所对应的文章数量。可以看到在双对数图上它是一条直线——这种规律被称为Power Law。大部分的文章阅读次数比较少,少量的文章被阅读的次数非常非常多。这是在社会学、自然科学和工程领域都非常常见的一个现象。

为什么要说这张图呢?我们发现文章创作需要投入不小的精力,但很多内容,阅读量非常少可能不会超过 1000 次,这样的内容投入产出效率可能比较低。我们认为如果这部分内容可以用机器创作的话,成本就会小很多。

我们从去年 6 月开始做了一个机器人 Xiaomingbot。一开始是做奥运会的赛事文章撰写。它包含三方面的输入——实时比分、实时图片数据,以及热门比赛的文字直播。我们的机器人将这三方面融合起来,最后生成对应的文章。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多