Yougth Blog

大神养成中.....

MAB-bandits问题

E&E冷启动问题

之前讲了推荐系统重的EE算法,讲了一些基础的Bandits冷启动算法,参加Recsys发现论文中和工业界讲的占比最高的是MAB问题。这里接着上面在深入一下。 LinUCB 前面说的这些MAB算法,做的假设是,当前这个新物料,是好的还是坏的是由本身的质量决定的。所以我们用点击率来定义物品质量,如果点击率高就会在exploit策略中大量推荐。 但是,现在的推荐系统已经是完全个性化的了,一个...

2019Recsys参会流水记录

参会记录

记录一下会上自己提前预习以及一些后续要做的事情的记录,其中有5篇标注的重点阅读文章,每一篇都会重点阅读之后发出来。 Recsys 2019其实相对往年人数差不多,来了大约840多人,相比去年没有增加多少,不知道是不是因为酒店礼堂大小的限制,明年在巴西的里约热内卢,据说能容纳两千人,预计人数会翻倍。论文提交数目基本全球还是挺分散的,最多是美国,22%占比,其次就是中国9.3%,还有提升的空间...

youtube深度学习推荐经典论文中关键点

《Deep Neural Networks for YouTube Recommendations》精读

前两天面试了一个候选人,他们其中一个项目就是复现youtube的深度学习embedding召回方案,虽然说效果不好,以及挺多人用了说效果不及预期,但是挺多思路对现在推荐依然影响深远。 总体思路 也是正常的分两阶段,第一阶段负责召回,在这里叫candidate generation,后一阶段负责ranking。 这里有两个先进点,这篇论文是16年9月发的,当时大家都在普及用协同过滤,...

逻辑回归特征工程及调参记录

特征工程记录

现在常用的有两种建模思路,要么是用简单的模型和复杂的特征工程,要么是用复杂的模型和简单的特征工程,相当于你喜欢玩模型还是喜欢玩特征,各自有各自的好处,当然玩特征可解释性好以及要求比较低。而玩特征大家最多用的模型就是罗辑回归,这里记录一下用逻辑回归建模的历程以及优化思路。 首先我用的是线上4天的数据集,总计2000w数据,先把数据按照请求时间(action_show_actionTime)排...

word2vec算法

NLP模型之二---word2vec

word2vec是自然语言处理的最基础模型,他的embeding的思想也影响了很多其他比如推荐、广告等,是google的Mikolov大神团队2013年提出的,这里从我的理解的角度分析一下。 这篇文章主要是参考,有兴趣对可以直接看原文,这里记录一些我的理解。 简介 首先,为什么说他是一个经典模型,有两点原因,一个是因为他的的结果是每词的词向量,结果很灵活,比如我们计算两个词的相似度,以...

机器学习中的评估指标

评估指标汇总

机器学习评估指标是机器学习中很重要的一环,这里列一下常见的评估指标以及自己的一些理解。 ACC 这个用的最广的,就是预测正确率。 Precision 准确率,表示在预估的正例中,真正的正例的占比 Recall 召回率,表示在所有正例中,预估正确的正例的占比 AUC AUC,具体计算方法这里不列了,这里主要说一下对AUC的一些理解,公式参见之前文章机器学习常见面试题...

Factorization Machines算法

Factorization Machines算法

之前讲过一个SVD算法,它能够通过一个U-I矩阵分解,然后把User和Item分别变成想要的向量表示,然后通过向量相似度的计算做关联推荐或者user2item的推荐。 这个算法有一个局限性,就是它没有办法用到一些重要的特征,如果推荐的优化目标是点击率的话,那么本身Item的点击率是一个很重要的特征,我们有没有办法把这些特征也建模到这个算法中呢,这就是Factorization Machin...

主题模型系列算法详解

NLP 模型之一---LDA模型

要讲主题模型要从概率论中的频率学派和贝叶斯学派讲起。 频率学派和贝叶斯学派 首先频率学派的思想很简单,我们观测到的结果就是客观世界的样子,就是直接用实验观测到的数据来描述随机事件,如果试验次数足够多,那么我们观测到的数据就能够准确描述随机实验的分布,比如抛硬币实验,2次向上,8次向下,就会认为这枚硬币正面向上的概率是20%。 而贝叶斯学派的观点是,我们观测的到的不是客观世界的样子,我只...

svd算法及其变种

矩阵分解算法运用

SVD算法是在Netflix竞赛中火起来的算法,当时这个算法夺冠了,然后带动起来一股研究浪潮,发展出了svd++,以及timeSvd等。 奇异值分解方法 SVD全称是奇异值分解,它是一种矩阵分解方法,大学线性代数里面也讲过奇异值分解的方法,但是老师当时没有说这东西有什么用,导致当时学的时候觉得很无聊,为什么要分解这东西。 首先我们知道推荐问题纯从行为来解就是一个矩阵填充问题,矩阵的一边...

《必然》读书笔记

科技未来发展趋势

这本书全书是在预测未来的趋势,跟书名一样,未来必然会发生的事情,作者通过一些重点词汇总结未来的趋势。 Becoming(形成) 不知道大家有没有看罗胖2019跨年演讲,基本上挺多观点和这本书吻合度很高,形成主要讲的是所有事物都是现在都是在一个形成的过程中,核心观点是不要觉得未来已经没有机会,实际上加入我们从未来来看现在的话,今天是一片处女地,所以现在是绝无仅有的开始时机。 正如罗胖举的...