推荐系统链路梳理

1.数据通道

批量处理数据

生成用户商品行为矩阵

商品评分矩阵

用户协同过滤,商品协同过滤

流式处理数据(细粒度刻画用户行为)

按用户ID和商品ID,更新矩阵记录,再次计算相似度。

2.数据预处理

数据的时效性:人的兴趣度会覆盖

时间分片:

不同的场景精度不一样,lbs

3.特征工程

4.推荐算法

多种技术融合

离线模型推荐结果

离线模型推荐结果+实时日志进行修正

实时日志计算相似度,产生推荐结果+离线结果

打底数据

冷启动

商品冷启动:内容相似度计算

用户冷启动:任务画像相似度

相似度计算,可以采用kmeans实现topK的返回

5.服务化

6.AB上线与迭代

7.效果评估

8.人物画像

9.打分服务

通常是最近3个月截至前一天 的数据来做离线训练。

实时推荐

对这种购买行为进行细致的刻画

其一是对用户的行为进行各种维度-指标的统计,形成实时特征,如用户偏好店铺、类目、商品; 其二是利用用户的行为,学习出模型,并在RTP中提供预测服务。这个模块就是Olive。

行为日志,join,生成特征样本数据

特征加入到模型在线更新过程中,计算模型更新参数,通过swift导入到rtp中

FTRL+regret损失函数作为在线学习的模型,还包括boosting和ensemble

comments powered by Disqus