Yougth Blog

大神养成中.....

逻辑回归特征工程及调参记录

特征工程记录

现在常用的有两种建模思路,要么是用简单的模型和复杂的特征工程,要么是用复杂的模型和简单的特征工程,相当于你喜欢玩模型还是喜欢玩特征,各自有各自的好处,当然玩特征可解释性好以及要求比较低。而玩特征大家最多用的模型就是罗辑回归,这里记录一下用逻辑回归建模的历程以及优化思路。 首先我用的是线上4天的数据集,总计2000w数据,先把数据按照请求时间(action_show_actionTime)排...

word2vec算法

NLP模型之二---word2vec

word2vec是自然语言处理的最基础模型,他的embeding的思想也影响了很多其他比如推荐、广告等,是google的Mikolov大神团队2013年提出的,这里从我的理解的角度分析一下。 这篇文章主要是参考,有兴趣对可以直接看原文,这里记录一些我的理解。 简介 首先,为什么说他是一个经典模型,有两点原因,一个是因为他的的结果是每词的词向量,结果很灵活,比如我们计算两个词的相似度,以...

机器学习中的评估指标

评估指标汇总

机器学习评估指标是机器学习中很重要的一环,这里列一下常见的评估指标以及自己的一些理解。 ACC 这个用的最广的,就是预测正确率。 \[ACC = \frac{right}{all}\] Precision \[precision = \frac{TP}{TP + FP}\] 准确率,表示在预估的正例中,真正的正例的占比 Recall \[recall = \frac{TP}{...

Factorization Machines算法

Factorization Machines算法

之前讲过一个SVD算法,它能够通过一个U-I矩阵分解,然后把User和Item分别变成想要的向量表示,然后通过向量相似度的计算做关联推荐或者user2item的推荐。 这个算法有一个局限性,就是它没有办法用到一些重要的特征,如果推荐的优化目标是点击率的话,那么本身Item的点击率是一个很重要的特征,我们有没有办法把这些特征也建模到这个算法中呢,这就是Factorization Machin...

主题模型系列算法详解

NLP 模型之一---LDA模型

要讲主题模型要从概率论中的频率学派和贝叶斯学派讲起。 频率学派和贝叶斯学派 首先频率学派的思想很简单,我们观测到的结果就是客观世界的样子,就是直接用实验观测到的数据来描述随机事件,如果试验次数足够多,那么我们观测到的数据就能够准确描述随机实验的分布,比如抛硬币实验,2次向上,8次向下,就会认为这枚硬币正面向上的概率是20%。 而贝叶斯学派的观点是,我们观测的到的不是客观世界的样子,我只...

svd算法及其变种

矩阵分解算法运用

SVD算法是在Netflix竞赛中火起来的算法,当时这个算法夺冠了,然后带动起来一股研究浪潮,发展出了svd++,以及timeSvd等。 奇异值分解方法 SVD全称是奇异值分解,它是一种矩阵分解方法,大学线性代数里面也讲过奇异值分解的方法,但是老师当时没有说这东西有什么用,导致当时学的时候觉得很无聊,为什么要分解这东西。 首先我们知道推荐问题纯从行为来解就是一个矩阵填充问题,矩阵的一边...

2019年终总结

总结&规划

不知不觉2019年已经过去了,算上实习步入职场已经四年了,年初也没有写规划,直接总结一下19年。 今年最大的收获应该是年中正好有个机会,走进了偏管理的方向,看待问题的思路开阔了很多,以前觉得技术就是埋头搞技术,技术NB就是王道,不用管其他的。现在来看,技术只是实现目标的一个方法,而且从算法效果来说,效果提升最高的点往往不是用了一个更NB的算法,而是结合产品形式找到了一种有效的方法,算法角度...

2018年终总结

总结&规划

学算法 预期结果: 从经典算法学起,学习10个工作相关方向的论文,并且写博客做深入分析,包括从理论数学公式到实践 实际结果: 学习算法GBDT、FM、EE基础算法、主题模型、doc2vec。而且其中三个没有写论文分析。 完成度:50% 读论文 预期结果: 读10篇论文,包括5篇经典和5篇新的研究方向的论文,对与经典论文要求实践其中方法。 实际结果: 读了一篇:Recomm...

《必然》读书笔记

科技未来发展趋势

这本书全书是在预测未来的趋势,跟书名一样,未来必然会发生的事情,作者通过一些重点词汇总结未来的趋势。 Becoming(形成) 不知道大家有没有看罗胖2019跨年演讲,基本上挺多观点和这本书吻合度很高,形成主要讲的是所有事物都是现在都是在一个形成的过程中,核心观点是不要觉得未来已经没有机会,实际上加入我们从未来来看现在的话,今天是一片处女地,所以现在是绝无仅有的开始时机。 正如罗胖举的...

推荐系统中的EE算法

推荐系统中的基础冷启动算法

人生中有很多选择问题,当每天中午吃饭的时候,需要选择吃饭的餐馆,那么就面临一个选择,是选择熟悉的好吃的餐馆呢,还是冒风险选择一个没有尝试过的餐馆呢。同样的,推荐系统处处也面临着这样的选择,是推荐一个已经熟悉的点击率很高的物品呢,还是选择一个新的物品呢。这些都可以泛化成一个经典问题,多臂老虎机问题,也是一个研究很广的问题,这里介绍一些常用的bandit算法。 Topmpson samplin...