当然,我们要把内容创作和交流的效果提高,为每个人推荐他最喜欢的内容,这涉及到三个最核心的技术: 第一,理解人。我们要用机器学习技术去理解用户的兴趣爱好,他的年龄、性别,他过去读了哪些文章等等,把这些组合起来刻画出他的兴趣方面完整的画像。 第二,理解内容。内容不单单是图文,也可以是视频,内容的主题是什么?关键词是什么?热度是什么?这些会决定推荐质量的好坏。 第三,环境特征。在北京还是在上海还是在苏州,白天还是晚上,要因地制宜推荐不同的内容。 将这三方面结合,再利用机器学习的算法,就可以给每一位用户推荐他真正喜欢的内容。今日头条拥有海量的用户群体,为每个人都推荐他真正喜欢的内容,这离不开强大的计算能力。每天,我们的服务器会收到百亿次的请求,我们有 6 万余台服务器每时每刻都在计算每一位用户的每一次点击,我们每天处理的数据量超过 7.8PB,这些帮助我们更好地理解用户真正喜欢什么。 做好内容引擎有四个环节,包括内容的创作、内容的推荐以及围绕内容的讨论还有内容的审核。今天我会重点介绍内容的创作,我们如何应用 AI 技术帮助作者用户创作更好的内容。 首先是机器写作。为什么要研发写作机器人呢?这里有一幅图表,它画的是在我们的平台上发的文章被阅读的频次,以及不同频次所对应的文章数量。可以看到在双对数图上它是一条直线——这种规律被称为Power Law。大部分的文章阅读次数比较少,少量的文章被阅读的次数非常非常多。这是在社会学、自然科学和工程领域都非常常见的一个现象。 为什么要说这张图呢?我们发现文章创作需要投入不小的精力,但很多内容,阅读量非常少可能不会超过 1000 次,这样的内容投入产出效率可能比较低。我们认为如果这部分内容可以用机器创作的话,成本就会小很多。 我们从去年 6 月开始做了一个机器人 Xiaomingbot。一开始是做奥运会的赛事文章撰写。它包含三方面的输入——实时比分、实时图片数据,以及热门比赛的文字直播。我们的机器人将这三方面融合起来,最后生成对应的文章。 |
|