编辑整理:李沛欣、马宇峰 出品平台:DataFunTalk 01 背景介绍 阅文智能业务中心的整体架构主要分为:数据层、大脑层和应用层。 ① 数据层 包含了智能业务中心可以采集到的各种带有数据属性的数据。这里AGC数据是作家创造的网文内容,UGC数据是观众或读者,在评论区、书评区、书单等产生的UGC内容。 ② 大脑层 是智能业务中心的基础,主要解决对用户的洞察,以及对文本内容的挖掘和理解。今天要分享的用户画像就处在这一层。 ③ 应用层 赋能给各处的应用,主要包括两类:
下面给大家详细介绍下我的一些思考和做用户画像整体的方法论,以及在阅文的探索和实践。 1. 思考:画像为何存在 ① 需求: 精细化: 互联网时代已经走过了原来的野蛮增长过程,大家手机上虽然装了很多APP,但可能很多APP是不会打开的。这导致如果APP A想要获取流量,会找APP B把流量给获取过来,而不是因为流量红利的存在,有很多用户会主动安装一些新的APP。所以我们从增量时代,来到了精细化时代。这时,用户画像显得非常重要,如何能够更好的洞察用户意图,理解用户背后隐藏的意图以及对用户标签的洞察,可以很方便的助力整体业务的发展。 用户价值: 另外,现在用户的价值越来越细分也越来越多维。在精细化时代,C端的用户价值往往会偏向于B端的应用场景。比如下面这个问题: 有很多的内容要改编成电视剧、游戏、电影、动漫。那么,什么样的内容适合改编?这些内容到底能够带来多少价值?价值如何定义?这时,我们发现用户价值往往起到了决定性的因素。 比如一部网文吸引的读者,都是年轻化的读者,如在校学生或者初入职场的毕业生等。那么,这部网文就适合改编成励志剧或者校园情景剧,它的想象空间和受众的广度,就可以提前洞察到,便于在改编时有一定的用户基础。杜绝了'直接拍脑袋改编剧集,再去看市场反映'情况的发生。这就是用户画像在用户价值方面的体现,可以很好的帮助网文的改编。 ② 能力 有了需求以后,在我们的业务场景,能够把用户画像建起来么?早在我10年加入百度时,百度已经开始做用户画像的整体建设了,由于百度是做精准广告出身的,这就需要精准的用户洞察。这时,外面很多的小公司还没有对用户画像进行建设,一是因为数据量可能没有那么大,二是因为自身的算法模型还没有完备。随着阅文业务的数据量越来越大,结合算法模型能力的提升,可以精准的挖掘出背后隐含的用户意图。 ③ 发展 数据资产: 用户画像是公司对未来发展的重要基础。用户画像聚集了'上帝',因为我们做所有的APP都是为用户服务的,希望给用户提供更好的体验。这些'上帝'形成的画像,无形中成为了公司的资产,这在每个公司都是适用的。 潜在壁垒: 在资产之上可以衍生出更多的产品,这就形成了潜在的壁垒。对于阅读领域,我们有自己对画像的提炼,可以对国内用户的阅读倾向,有更深刻的洞察和理解,这样就形成了公司的壁垒。我们再以字节跳动为例,字节跳动一开始只有今日头条一个主APP,但在主APP的发展过程中,他们积累了很多用户的精准画像,如用户A喜欢车,用户B喜欢短视频,在这基础上,使得字节跳动孵化出了抖音短视频和懂车帝,这背后都跟用户的精准洞察是息息相关的。 这就是我们为什么要做用户画像的一个原因。 2. 思考:画像如何来做 我们知道了为什么要做用户画像,那如何来做用户画像?如何构建用户画像标签体系?是数据驱动?还是业务驱动? ① 数据驱动 从Bottom to Up,也就是自底向上 ( 自下而上 )。那么底是什么?底是公司所有的数据资产,是由数据驱动,可以发现用户有哪些规律,找到用户画像的隐含标签。这是一种方法,从数据驱动去解决,可以看到用户有哪些标签。 ② 业务驱动 所有的业务对用户画像都有一定的导向性。因为技术总归要应用到某些特定的场景,如某些B端场景应用价值的评估。这时要看业务想要聚合哪一类型的用户,需要找到这些用户。这就是以业务为驱动,来找到下游要做怎样的标签体系。 3. 方法:数据驱动+业务驱动 一般来说,用户画像是业务驱动或者数据驱动的。而在做阅文整体的用户画像时,考虑的是业务和数据相结合。 基础数据驱动的用户画像洞察,当提炼出一些标签以后,会决定业务行动的效率。比如对流失了3天的用户,要做一些促活的活动,先会通过数据提炼出流失3天的一些用户,去做用户激活,比如push ( 消息推送 ),进行push之后可以拿到基础数据反馈的结果,从而更好的驱动用户画像标签的优化。 进一步,如果最终画像标签是为了促活而使用的,那么我们可不可以预测下,哪些用户有存在流失的可能性,而不仅仅只是从基础数据得到自己流失3天的、被定义为将要流失的用户。这样就形成了正向的闭环,可以有效的提升画像标签的精准性,并提升用户画像的价值,可以更好的解决业务面临的一些问题。 前面讲述了对用户画像整体的总结与思考,也就是总的纲领,现在展开讲一下我们的一些探索和实践。 1. 背景 阅文用户画像建设的背景:阅文集团旗下有多款阅读类APP,虽然在国内网络文学领域占了绝对的领先位置,但有很多独立的APP,导致标签无法单独成为统一的、独立于APP而存在的体系,这导致了以下几个问题:
2. 方法:收敛,基建,应用,反馈 具体如何解决这些问题,更好地建设和应用用户画像,我们在此做了一些关键节点的罗列:
3. 用户画像系统全貌 简单看一下用户画像系统的全貌: ① 基础设施 基础的算力依赖,主要包括:
② 数据层 包括实时流、离线统一数据、第三方数据。这里说一下离线统一数据: 以前更关注的是离线数据,但是当APP越来越多以后,各个端的离线数据口径和埋点是不一致的,有非常大的挑战,特别对于成熟的公司做用户画像时,会发现这一块最耗费精力,因为要对所有的数据口径进行梳理。所以这块未来希望有一套统一的离线数据来支持上层整体的用户画像应用。 ③ 用户理解层 在数据层上面,再会构建自己的用户理解层,基于数据去理解用户。主要包括行为和标签。 行为: 因为有些行为是有强意图的,我们希望把强意图的行为也能够直接积累起来,并在上游直接应用。行为主要包括实时session行为和关键行为。
标签: 对于标签,主要包含了4类:
④ 服务层 在用户理解的基础上,我们可以提供各种服务:在线服务YUDS ( 统一收口服务 )、 标签管理 ( 很多标签业务用过以后,下次再用时不知道标签是什么含义了,希望有一套标签元信息的管理,能够很好的管理起来,达成标签的更强复用 )、用户理解平台以及标签质量监控 ( 监控标签的质量,调优标签的结果 )。 ④ 应用层 这里不再细讲,在后面会展开一下。以上,就是我们用户画像系统的全貌,下面再详细为大家介绍下: 4. 基础:不可忽视的数据建设 万丈高楼平地起,没有数据,画像都是无根之草。对于数据建设会强调几个方面:
5. 支撑:架构建设 有了数据的基础后,就是对工程架构的建设。在业内主要有两种工程架构:
我们的架构是从Kappa架构过渡到Lambda架构的:
6. 内容:标签建设 有架构以后,要填充内容,内容其实就是标签。刚才在全貌中大家也看到了,有事实标签,规则标签 ( 统计标签 ),还有模型标签和实时标签。这里重点展开讲一下阅文特有的模型标签,阅读偏好。因为我们是属于阅读业务领先的公司,主要解决的是用户阅读类型问题。
7. 价值:应用 用户画像的应用价值在哪里?我们通过整体的用户生命周期就可以很容易看出用户画像的价值。从潜在用户到新用户,可以识别潜在阅读/付费人群,来进行智能投放;从新用户到活跃用户,可以通过实时行为看出用户的阅读兴趣,来进行智能运营、智能承接页、智能推荐等;还包括未来的流失召回,以及自己用户的激活都跟用户画像息息相关。 8. 反馈:验证+闭环 对于建设整体的标签体系,反馈是非常重要的一环,用来保证用户画像的准度。主要方法有:
未来展望分为两点: 1. 技术突破,奠定泛娱乐的用户画像之基 对基础技术进行突破,奠定泛娱乐的用户画像之基。什么是泛娱乐的用户画像之基?除了网文,我们还有游戏、漫画、动画、影视,是否有一种整体的用户画像基础,可以承接整体泛娱乐场景的用户洞察,这是技术上会考虑的问题。 2. 业务赋能,打造用户全生命周期的赋能 刚刚在应用价值中,有讲到把用户整体生命周期串起来看,用户画像能在某个点、某个场景中进行进一步的赋能。在这里,我们希望可以跟业务有强绑定,通过推荐、精准的精细化运营等手段,解决线上的用户全生命周期的管理及赋能问题。 今天的分享就到这里,谢谢大家。 |
|
来自: 520jefferson > 《海量数据处理方法》