Yougth Blog

大神养成中.....

逻辑回归特征工程及调参记录

特征工程记录

现在常用的有两种建模思路,要么是用简单的模型和复杂的特征工程,要么是用复杂的模型和简单的特征工程,相当于你喜欢玩模型还是喜欢玩特征,各自有各自的好处,当然玩特征可解释性好以及要求比较低。而玩特征大家最多用的模型就是罗辑回归,这里记录一下用逻辑回归建模的历程以及优化思路。 首先我用的是线上4天的数据集,总计2000w数据,先把数据按照请求时间(action_show_actionTime)排...

word2vec算法

NLP模型之二---word2vec

word2vec是自然语言处理的最基础模型,他的embeding的思想也影响了很多其他比如推荐、广告等,是google的Mikolov大神团队2013年提出的,这里从我的理解的角度分析一下。 这篇文章主要是参考,有兴趣对可以直接看原文,这里记录一些我的理解。 简介 首先,为什么说他是一个经典模型,有两点原因,一个是因为他的的结果是每词的词向量,结果很灵活,比如我们计算两个词的相似度,以...

机器学习中的评估指标

评估指标汇总

机器学习评估指标是机器学习中很重要的一环,这里列一下常见的评估指标以及自己的一些理解。 ACC 这个用的最广的,就是预测正确率。 Precision 准确率,表示在预估的正例中,真正的正例的占比 Recall 召回率,表示在所有正例中,预估正确的正例的占比 AUC AUC,具体计算方法这里不列了,这里主要说一下对AUC的一些理解,公式参见之前文章机器学习常见面试题...

Factorization Machines算法

Factorization Machines算法

之前讲过一个SVD算法,它能够通过一个U-I矩阵分解,然后把User和Item分别变成想要的向量表示,然后通过向量相似度的计算做关联推荐或者user2item的推荐。 这个算法有一个局限性,就是它没有办法用到一些重要的特征,如果推荐的优化目标是点击率的话,那么本身Item的点击率是一个很重要的特征,我们有没有办法把这些特征也建模到这个算法中呢,这就是Factorization Machin...

主题模型系列算法详解

NLP 模型之一---LDA模型

要讲主题模型要从概率论中的频率学派和贝叶斯学派讲起。 频率学派和贝叶斯学派 首先频率学派的思想很简单,我们观测到的结果就是客观世界的样子,就是直接用实验观测到的数据来描述随机事件,如果试验次数足够多,那么我们观测到的数据就能够准确描述随机实验的分布,比如抛硬币实验,2次向上,8次向下,就会认为这枚硬币正面向上的概率是20%。 而贝叶斯学派的观点是,我们观测的到的不是客观世界的样子,我只...

svd算法及其变种

矩阵分解算法运用

SVD算法是在Netflix竞赛中火起来的算法,当时这个算法夺冠了,然后带动起来一股研究浪潮,发展出了svd++,以及timeSvd等。 奇异值分解方法 SVD全称是奇异值分解,它是一种矩阵分解方法,大学线性代数里面也讲过奇异值分解的方法,但是老师当时没有说这东西有什么用,导致当时学的时候觉得很无聊,为什么要分解这东西。 首先我们知道推荐问题纯从行为来解就是一个矩阵填充问题,矩阵的一边...

《必然》读书笔记

科技未来发展趋势

这本书全书是在预测未来的趋势,跟书名一样,未来必然会发生的事情,作者通过一些重点词汇总结未来的趋势。 Becoming(形成) 不知道大家有没有看罗胖2019跨年演讲,基本上挺多观点和这本书吻合度很高,形成主要讲的是所有事物都是现在都是在一个形成的过程中,核心观点是不要觉得未来已经没有机会,实际上加入我们从未来来看现在的话,今天是一片处女地,所以现在是绝无仅有的开始时机。 正如罗胖举的...

推荐系统中的EE算法

推荐系统中的基础冷启动算法

人生中有很多选择问题,当每天中午吃饭的时候,需要选择吃饭的餐馆,那么就面临一个选择,是选择熟悉的好吃的餐馆呢,还是冒风险选择一个没有尝试过的餐馆呢。同样的,推荐系统处处也面临着这样的选择,是推荐一个已经熟悉的点击率很高的物品呢,还是选择一个新的物品呢。这些都可以泛化成一个经典问题,多臂老虎机问题,也是一个研究很广的问题,这里介绍一些常用的bandit算法。 Topmpson samplin...

查询sql要点记录

sql(算法)工程师必知必会

查询基础 查询sql使用AS重命名列名时,别名可以使用中文,使用中文时需要用双引号(“)括起来。请注意 不是单引号(‘)。 查询时候可以使用常数,类似 ‘SELECT ‘商品’ AS string, 38 AS number, ‘2009-02-24’ AS date, product_id, product_name FROM Product;’ 在SE...

职场成长的一些思考

《能者是否应该多老》引发的思考

今天看奇葩说辩论,能者是否应该多劳,挺精彩的,作为一个职场人感觉都应该看看,挺有感触的,最打动我的还是薛兆丰教授的观点,这里分享一下他的观点以及我的一些思考。 他提到了三个问题 工作是不是一种机会? 你的努力有没有人能够看到? 你的工作收入是别人给的还是你要回来的? 其实核心思想是,能者应该多劳,因为能者一般会把工作当成是一种机会,可能会因为你的能力强而被领导提拔,可能...