Yougth Blog

大神养成中.....

贝叶斯个性化BPR算法

Bayesian Personalized Ranking Loss算法

优化和损失函数是机器学习的一大分支。其中按照大类分为PointWise,就是通过直接预估单个的物品的得分去做排序,在精排环节中最常用;第二类叫PairWise,就是把排序问题看成是其中物品组成的任意pair,然后对比两两pair之间的顺序,所以样本就是这种物品对,这种在召回环节最常用;第三类是ListWise算法,就是需要考虑待排序的物品中任意之间的顺序,把整个列表当作样本,一般在重排环节用...

Youtube2019双塔召回论文精读

youtube论文精读

19年Recsys上youtube出了两篇论文,虽然youtube中国推荐做的贼烂,但是论文依旧延续了精品的传统。 yougth这里对其中热度不是那么高的一篇《Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations》做一个精读。 总体思路 首先大体来讲,一个很有意思的点是,google也...

我的价值观

价值观测试的引发的思考

简单的价值观测试 今天看到一个价值观测试,首先有两组词: 富足的生活、社会正义、成功、奉献、权利、正直 守规、快乐、社会秩序、自由、礼貌、冒险 从两组中分别选出你认为最重要的三个,按照重要性排序,填入下面表格;另外,假设你现在有100w,你愿意分别给每一个支付多少钱。 比如我的大概是这样: 排序 单词 金额 ...

DSSM双塔模型系列之二

双塔模型排序

前面讲了双塔模型召回,这一篇讲万能的双塔模型做排序,在广告和推荐的粗排序环节广泛实用。 双塔排序 首先这里的排序指的是粗排环节,召回侧多个召回渠道可能会召回几千级别的item,而精排模型一般复杂度比较高,所以整体目的是从几千的用户可能感兴趣的item里选出用户最感兴趣的top几百。 而样本侧呢,也没什么可说的,就直接用精排侧落的样本,比如点击率模型的话,就是曝光点击为正样本,曝光未点击...

DSSM双塔模型系列一

双塔模型召回

因为今年和带的实习生一起做了下双塔模型,加上这个模型在工业界的大量运用,以及他符合我的审美,大的道理都是最简单的道理,实用的模型也是结构上很简洁的模型。所以打算写关于双塔模型的一个系列的文章,双塔召回、双塔排序、双塔多目标、以及塔的结构上的改进。 模型介绍 双塔模型最早是2013年微软提出,《Learning Deep Structured Semantic Models for Web...

召回离线评估指标问题记录

离线评估指标

AUC是否能作为召回评估指标 首先,AUC是代表模型的排序能力,因为在召回环节考虑所有推荐物品的顺序没有太大意义,所以不是一个好的评估指标。另外后面所有提到的AUC含义都是针对单个user的,即group by user AUC。 AUC和线上优化指标正相关嘛 不相关。我们先从AUC的计算说起,计算auc需要知道每个item的label和score,score决定的最终出去的顺序;但是...

巴菲特的价值投资之道

巴菲特价值投资总结

现在市面上理财投资的书,随便翻十本里面九本再讲价值投资,可能其中八本读下来发现作者是研究巴菲特的投资方法,可见巴菲特现在火的程度,那么巴菲特为什么这么火呢?我们首先回顾一下巴菲特的投资生涯。 财富履历 先看看巴菲特各个年龄段的财富积累。 (1)青少年阶段:11岁买入他人生中的第一只股票;14岁已经完成了他最喜欢的一本书《赚取1000美元的1000招》中所提出的第一个目标:拥有1000美...

红楼梦中的对比

《红楼梦》读后感

最近重读了红楼梦,全篇处处充满着对比,从对比的角度分析一下。 繁华与幻灭的对比 首先从作者曹雪芹的一生,青春期前处在繁华的富贵中,后半生处在反差极大的贫困中。俗话说,由俭入奢易,由奢易俭难。经历了这么大的反差变化,作者写红楼梦的时候一定思绪万千,而且这种对比反差在全书中都能感受出来。 我们刚开始读的时候,觉得好个富贵人家,各种规矩、各种排场、吃的用的,都是当时数一数二的,但是在这样繁华...

MAB-bandits问题

E&E冷启动问题

之前讲了推荐系统重的EE算法,讲了一些基础的Bandits冷启动算法,参加Recsys发现论文中和工业界讲的占比最高的是MAB问题。这里接着上面在深入一下。 LinUCB 前面说的这些MAB算法,做的假设是,当前这个新物料,是好的还是坏的是由本身的质量决定的。所以我们用点击率来定义物品质量,如果点击率高就会在exploit策略中大量推荐。 但是,现在的推荐系统已经是完全个性化的了,一个...

2019Recsys参会流水记录

参会记录

记录一下会上自己提前预习以及一些后续要做的事情的记录,其中有5篇标注的重点阅读文章,每一篇都会重点阅读之后发出来。 Recsys 2019其实相对往年人数差不多,来了大约840多人,相比去年没有增加多少,不知道是不是因为酒店礼堂大小的限制,明年在巴西的里约热内卢,据说能容纳两千人,预计人数会翻倍。论文提交数目基本全球还是挺分散的,最多是美国,22%占比,其次就是中国9.3%,还有提升的空间...