算法分发原理(上) 1.算法分发系统概览 简化的算法分发模型 把内容推荐给用户 推荐系统本质上要解决用户,环境和内容的匹配。 2.用户画像(user profile):根据用户的社会人口属性,生活习惯,消费行为等信息而抽象出的一个标签化用户模型。 标签tag/label 构建用户画像的核心作用是给用户打标签 标签的类型越精确,我们推荐的效果会越好 标签是对用户信息分析得来的高度精炼的特征标识 标签来源是用户消费习惯,从而进行精准营销 许多的标签集合就构成了用户画像 用户画像的作用: 精准营销,分析产品潜在用户,定向特定群体 用户统计,eg中国大学购买书籍人数top10 数据挖掘智能推荐,利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌 效果评估,完善产品运营,提升服务质量 服务产品的私人定制,个性化服务某类群体,甚至每一位用户 用户画像的构建流程 基础数据收集,行为建模,构建画像 基础数据包括网络行为数据,服务内行为数据,用户内容偏好数据,用户交易数据。 行为建模则是通过文本挖掘,自然语言处理,机器学习,预测算法,聚类算法。 构建用户画像则是通过用户的基本属性,购买能力,行为特征,兴趣爱好,心理特征,社交网络。 为用户设置调整标签有哪些策略? 过滤噪声:过滤停留时间短的点击,打击标题党。 惩罚热点:用户在热门文章上的动作做降权处理。 时间衰减: 随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会越大。 惩罚展现:如果一篇推荐给用户的文章,没有被点击,相关特征权重会被惩罚。 下 3.内容建模和分析 以文本内容为例 文本分析 对文本的表示及其特征项的选取 文本挖掘,信息检索的一个基本问题,使用从文本中抽取的特征词进行量化,表示文本信息。 非结构化到结构化,可处理的。 基本技术,分词和词频统计。 分词的时候必须把一连串的文字结合在一起,不能拆。eg中国人民大学 向量空间模型,描述文本向量 向量空间降维,特征(feature)选择 文本分析算法举例:实体词识别算法 4.推荐算法 推荐算法,召回策略 典型推荐算法 协同过滤 逻辑回归 深度神经网络 因子分解机 梯度提升树 协同过滤算法目前是推荐系统领域最基本、应用最为广泛的算法。 通过分析和利用用户的历史行为来给用户的兴趣建模,并根据用户的兴趣对用户作出推荐。 协同过滤分两种,有基于用户和基于物品的。 基于用户的协同过滤最早应用于邮件的过滤和新闻推荐中。 基于物品的协同过滤,最早由亚马逊的推荐系统专家提出,在商业界广泛应用。 基于用户的协同过滤的基本假设:一个用户会喜欢和他有相似兴趣、喜好的用户群喜欢的物品。 为了给目标用户做推荐,首先应该找到与该用户在兴趣喜好上最相似的一组,然后做推荐。 两个用户相似,是指这两个用户喜欢过的物品集合相似。 基于物品的协同过滤的基本假设是用户会喜欢和他以前喜欢过的物品,相似的物品。这种在电商的推荐里非常常见。 推荐的时候,首先从用户行为历史数据中检索他之前喜欢过的物品集合,然后从尚未推荐的物品里找到和他喜欢的物品相似的物品,进行推荐。 典型召回策略 根据兴趣标签找到相应文章,取回排序靠前文章。 推荐系统的数据依赖 推荐模型的特征抽取需要用户和内容的各种标签 召回策略需要获取用户侧和内容侧的各种标签 用户标签挖掘和内容分析是搭建推荐系统的基石 |
|