Yougth Blog

大神养成中.....

推荐系统中的EE算法

推荐系统中的基础冷启动算法

人生中有很多选择问题,当每天中午吃饭的时候,需要选择吃饭的餐馆,那么就面临一个选择,是选择熟悉的好吃的餐馆呢,还是冒风险选择一个没有尝试过的餐馆呢。同样的,推荐系统处处也面临着这样的选择,是推荐一个已经熟悉的点击率很高的物品呢,还是选择一个新的物品呢。这些都可以泛化成一个经典问题,多臂老虎机问题,也是一个研究很广的问题,这里介绍一些常用的bandit算法。 Topmpson samplin...

查询sql要点记录

sql(算法)工程师必知必会

查询基础 查询sql使用AS重命名列名时,别名可以使用中文,使用中文时需要用双引号(“)括起来。请注意 不是单引号(‘)。 查询时候可以使用常数,类似 ‘SELECT ‘商品’ AS string, 38 AS number, ‘2009-02-24’ AS date, product_id, product_name FROM Product;’ 在SE...

职场成长的一些思考

《能者是否应该多老》引发的思考

今天看奇葩说辩论,能者是否应该多劳,挺精彩的,作为一个职场人感觉都应该看看,挺有感触的,最打动我的还是薛兆丰教授的观点,这里分享一下他的观点以及我的一些思考。 他提到了三个问题 工作是不是一种机会? 你的努力有没有人能够看到? 你的工作收入是别人给的还是你要回来的? 其实核心思想是,能者应该多劳,因为能者一般会把工作当成是一种机会,可能会因为你的能力强而被领导提拔,可能...

最近读的书

有趣的书籍记录

心理学是什么 《心理学是什么》是一本心理学的入门书,从人们对心理学的误解,心理学的研究方法,心理学的分类。以及心理学历史发展进程讲起,这部分比较有意思,主要是以各个发展阶段的代表人物以及他们的主要思想为线索 心理学发展进程: 精神分析论心理学–>行为主义论心理学–>人本主义论心理学 心理学历史发展阶段主要有: 精神分析-弗洛伊德,自我,本我,超我,本我是无意识的,...

Recommendation bryond Matrix Factorization

矩阵分解的新思路

摘要 在过去的十年中,矩阵分解已经得到了广泛的研究,并已成为最受欢迎的个性化推荐技术之一。然而,基于矩阵分解的推荐模型中采用的点积不满足不等性,这可能会限制它们的表达性并导致次优解。为了克服这个问题,我们提出了一种称为度量分解的新型推荐技术。我们假设用户和物品可以放置在低维空间中,并且可以使用满足不等式属性的欧几里德距离来测量它们的明确相似度。为了证明其有效性,我们进一步设计了两种度量分解...

机器学习常见面试题目

Machine learning common interview questions

算法类 逻辑回归原理及公式推导 逻辑回归通常是必问的,最好能够很通顺的讲下来,里面公式都能够完整的推导下来,详细参见 逻辑回归和线性回归的区别和联系 Item 线性回归 逻辑回归 解决问题 回归预测 分类 分布 正态分布...

推荐系统分析

Recommendation system analysis

做推荐系统将进两年了,最近闲下来总结自己做的一些事情,忽然想到一个问题,推荐系统的核心是什么?怎样推荐系统是一个业界比较先进的推荐系统? 推荐系统本质 首先我们来看第一个问题,推荐到底是在做一件什么事情。 如上图所示,推荐本质上做的事情是用户(User)在某一场景或者环境(Scene)下,看到了自己最感兴趣的物品(Item)。例如音乐推荐,我在下午写代码的时候想听一些民谣或者好听的...

GBDT算法详解

Gradient boosting Decision Tree(GBDT)算法分析

GBDT介绍 Gradient boosting Decision Tree算法是复合算法,前半部分Gradient boosting属于集成学习,迭代多个弱学习器,然后学习结果相加,最著名的boost算法是adaboost,其实总体思想和这个差不多,想了解可以看看之前的博客,而后半部分Decision Tree就是决策树了,著名的符号学派的经典算法。 目前在广告ctr预估方面用的很多的算法...

Paul Graham:未来的互联网创业

未来的互联网创业

Paul Graham:未来的互联网创业(上)** 作者: 阮一峰 日期: 2008年1月24日 我不知道怎样介绍Paul Graham这个人。 根据他的简历,他是一个计算机博士,一个程序员,一个风险投资家。但是,在我眼里,他其实是一个思想家。他的很多观点深刻地启发了我。 比如,他说,程序员就是当今时代的手工艺人,其他行业的人都必须依附于流水线的工业化生产才能谋生,只有程序员可...

spark大数据归并优化

spark

问题 首先定义问题,我要用线上一段时间的行为日志做逻辑回归训练,行为数据中主要包括物品id和用户id以及场景信息,我要把他们处理成一些用户相关特征,物品相关特征以及场景特征,物品特征在物品模型中,大约2.9G,大约1426w条,而用户特征包含在用户模型中,大约2.6G,共计171w条,这些都是通过id做关联的,我现在要做的是把他们关联在一起,变成一个spark的 LabeledPoint ...