短视频推荐记录

短视频推荐相关

Posted by BY on May 21, 2017

召回

相关指标

  1. 曝光vv占比、曝光uv占比、独特率、独特数、后验(短视频有效播放、完播率、播放完成度;点击场景ctr、uv-ctr)
  2. 漏斗指标,用于排查问题和优化:各层占比、通过率、独特率、用户渗透

模型召回

多目标双塔

正样本(对齐下游目标):

  • 有效播放:(播放时长≥5s且视频时长<20s)or(播放时长 ≥7s且视频时长≥20s)
  • 长播放:播放时长≥30s
  • 高完播:根据视频时长划分计算播放率,大于0.8为高完播
  • 转化:完播(播时 >= 视频时长)、 (长播)播时>30s 、 关注 、 点赞 、 分享

负样本:

  • 全局负采样5+曝光负样本1+batch内负样本*250
  • 负样本生成逻辑:每条正样本从当天曝光池中随机采样5条负样本(至少一个目标为正),并且采样1条这个用户的曝光负样本(全部目标为负)作为困难负样本
  • batch内随机负采样(或者N-pair loss) ∑i=0n∑j=0nCELoss(sigmoid(simi,j),labeli,j)\sum_{i=0}^{n}\sum_{j=0}^{n}CELoss(sigmoid(sim_{i,j}),label_{i,j})\sum_{i=0}^{n}\sum_{j=0}^{n}CELoss(sigmoid(sim_{i,j}),label_{i,j})

模型: 双塔,user测用一个,item测4个,最终目标loss融合

优势: 占比高、透出率高

缺点: 头部item集中、样本复杂学习较困难

一致性双塔

正样本: 精排top100 || 关注 || 评论 || 点赞 || 浏览作者主页 || 浏览评论 || 分享 || 长播(播放时长大于30s)

负样本: bacth内30条 + hard5条

  1. 构造当天播放item_id+slot hash字典(全局采样)
  2. 在模型训练的自定义样本处理阶段对每条req_id+imei进行负采样处理。
  3. 根据当前req_id+imei,取当前item的品类,然后随机从上述字典里面采样1条品类相同item,5条其他的item(hard采样)
  4. 保留当前req_id+imei的user侧特征,拼接随机采样的item特征
  5. 生成6条新样本后组装batch,然后训练(batch内loss负采样仍然保留)

模型: 标准双塔,4层

优点: 增加不同tag1的采样能大幅提升召回率和vv占比。

缺点: 本身在框架内实现,效率低训练时间长。

兴趣召回mind

正样本: 有效播放

负样本: 曝光正样本 + 256batch内负样本 + 1:10全局随机负采样样本

模型: mind模型

优点: 表达用户兴趣

缺点: 难表示兴趣迁移、以及召回池有限整体影响较小

功能双塔召回

主要两个方向,分人群召回和分内容属性召回。

分人群的比如中年女性之类的人群、新用户类、某种机型类。

分内容属性的比如新闻、影视、短剧之类。

主要方式就是搞一个专门内容池,然后用上面提到的主模型去做召回,服务专有人群或者某种内容的分发。

协同召回

icf

  • 传统icf,公式简洁容易理解、线上表现不错、目前依然是主召回通道。
  • 变种swing等,更偏向长尾和多样性,属于icf的补充。
  • 模型icf学习,通过item双塔,icf的结果作为label学习,头部不如icf,但泛化和长尾效果好。

ucf

  • 传统ucf,通过聚类等实现,通常效果不如icf
  • 模型u2u2i,通过模型产出的user emb,拉取得相似用户在获得正向行为。效果不错,通常是核心召回通道。

倒排召回

兴趣召回

** 关注召回**

** 热点召回**

其他

  • 基于用户画像/用户理解/内容属性偏好、长尾兴趣、潜在兴趣/探索、冷启召回
  • 图神经网络、知识图谱(多样性、惊喜度)等

粗排

精排

重排

业务

指标

优化方向

关键路径