Yougth Blog

大神养成中.....

2019Recsys参会流水记录

参会记录

记录一下会上自己提前预习以及一些后续要做的事情的记录,其中有一些重点阅读文章,每一篇都会重点阅读之后发出来。 这次Recsys其实相对往年人数差不多,来了大约840多人,相比去年没有增加多少,不知道是不是因为酒店礼堂大小的限制,明年在巴西的里约热内卢,据说能容纳两千人,预计人数会翻倍。论文提交数目基本全球还是挺分散的,最多是没过,22%占比,其次就是中国9.3%,还有提升的空间。涉及到的问...

youtube深度学习推荐经典论文中关键点

《Deep Neural Networks for YouTube Recommendations》精读

前两天面试了一个候选人,他们其中一个项目就是复现youtube的深度学习embedding召回方案,虽然说效果不好,以及挺多人用了说效果不及预期,但是挺多思路对现在推荐依然影响深远。 总体思路 也是正常的分两阶段,第一阶段负责召回,在这里叫candidate generation,后一阶段负责ranking。 这里有两个先进点,这篇论文是16年9月发的,当时大家都在普及用协同过滤,...

逻辑回归特征工程及调参记录

特征工程记录

现在常用的有两种建模思路,要么是用简单的模型和复杂的特征工程,要么是用复杂的模型和简单的特征工程,相当于你喜欢玩模型还是喜欢玩特征,各自有各自的好处,当然玩特征可解释性好以及要求比较低。而玩特征大家最多用的模型就是罗辑回归,这里记录一下用逻辑回归建模的历程以及优化思路。 首先我用的是线上4天的数据集,总计2000w数据,先把数据按照请求时间(action_show_actionTime)排...

word2vec算法

NLP模型之二---word2vec

word2vec是自然语言处理的最基础模型,他的embeding的思想也影响了很多其他比如推荐、广告等,是google的Mikolov大神团队2013年提出的,这里从我的理解的角度分析一下。 这篇文章主要是参考,有兴趣对可以直接看原文,这里记录一些我的理解。 简介 首先,为什么说他是一个经典模型,有两点原因,一个是因为他的的结果是每词的词向量,结果很灵活,比如我们计算两个词的相似度,以...

机器学习中的评估指标

评估指标汇总

机器学习评估指标是机器学习中很重要的一环,这里列一下常见的评估指标以及自己的一些理解。 ACC 这个用的最广的,就是预测正确率。 Precision 准确率,表示在预估的正例中,真正的正例的占比 Recall 召回率,表示在所有正例中,预估正确的正例的占比 AUC AUC,具体计算方法这里不列了,这里主要说一下对AUC的一些理解,公式参见之前文章机器学习常见面试题...

Factorization Machines算法

Factorization Machines算法

之前讲过一个SVD算法,它能够通过一个U-I矩阵分解,然后把User和Item分别变成想要的向量表示,然后通过向量相似度的计算做关联推荐或者user2item的推荐。 这个算法有一个局限性,就是它没有办法用到一些重要的特征,如果推荐的优化目标是点击率的话,那么本身Item的点击率是一个很重要的特征,我们有没有办法把这些特征也建模到这个算法中呢,这就是Factorization Machin...

主题模型系列算法详解

NLP 模型之一---LDA模型

要讲主题模型要从概率论中的频率学派和贝叶斯学派讲起。 频率学派和贝叶斯学派 首先频率学派的思想很简单,我们观测到的结果就是客观世界的样子,就是直接用实验观测到的数据来描述随机事件,如果试验次数足够多,那么我们观测到的数据就能够准确描述随机实验的分布,比如抛硬币实验,2次向上,8次向下,就会认为这枚硬币正面向上的概率是20%。 而贝叶斯学派的观点是,我们观测的到的不是客观世界的样子,我只...

svd算法及其变种

矩阵分解算法运用

SVD算法是在Netflix竞赛中火起来的算法,当时这个算法夺冠了,然后带动起来一股研究浪潮,发展出了svd++,以及timeSvd等。 奇异值分解方法 SVD全称是奇异值分解,它是一种矩阵分解方法,大学线性代数里面也讲过奇异值分解的方法,但是老师当时没有说这东西有什么用,导致当时学的时候觉得很无聊,为什么要分解这东西。 首先我们知道推荐问题纯从行为来解就是一个矩阵填充问题,矩阵的一边...

《必然》读书笔记

科技未来发展趋势

这本书全书是在预测未来的趋势,跟书名一样,未来必然会发生的事情,作者通过一些重点词汇总结未来的趋势。 Becoming(形成) 不知道大家有没有看罗胖2019跨年演讲,基本上挺多观点和这本书吻合度很高,形成主要讲的是所有事物都是现在都是在一个形成的过程中,核心观点是不要觉得未来已经没有机会,实际上加入我们从未来来看现在的话,今天是一片处女地,所以现在是绝无仅有的开始时机。 正如罗胖举的...

推荐系统中的EE算法

推荐系统中的基础冷启动算法

人生中有很多选择问题,当每天中午吃饭的时候,需要选择吃饭的餐馆,那么就面临一个选择,是选择熟悉的好吃的餐馆呢,还是冒风险选择一个没有尝试过的餐馆呢。同样的,推荐系统处处也面临着这样的选择,是推荐一个已经熟悉的点击率很高的物品呢,还是选择一个新的物品呢。这些都可以泛化成一个经典问题,多臂老虎机问题,也是一个研究很广的问题,这里介绍一些常用的bandit算法。 Topmpson samplin...