Skip to content

343829084/AliRecommendProject

 
 

Repository files navigation

##大工搜索引擎与文本挖掘课程作业

这是基于阿里移动推荐算法竞赛的一份作业。 作业评测网址为:ir.dlut.edu.cn/onlinejudge

本项目主要应用于对阿里移动推荐算法竞赛的数据处理,特征提取及训练等。

YML.BPN项目是c++实现的BP神经网络的源代码

FeatureController是C#实现的用于抽取434维特征的特征抽取程序,使用前需要配置App.Config中的数据库连接字符串

GBDT的代码并没有单独提取出来,而是在BPNetwork工程中GBDT.py的文件中

###下面是阿里移动推荐算法竞赛第二期数据的一些统计:

共包含消费记录:12256906条

包含o2o商品id数:480723条,去重后为310582条 (有些商品会同时属于多个类别,所以去重之后记录数减少了)

###特征包括:

购物车转化率:购买的/加入购物车量,注意对用户及商品进行分别统计 收藏转化率:购买的/收藏量 点击转化率:购买量/点击量

转化率说明:这里的收藏对于一个用户来说只是一个商品状态,只能有一次记录,不像点击操作,同一个用户可以进行很多次。

所以这里的收藏转化率是指,在已经收藏了该商品的用户里,有多少个用户购买了。

则可以看出,点击转化率有两个概念

  1. 在已经点击过该商品的用户中,有多少个用户购买了。
  2. 该商品平均被点击多少次,会被购买。(后期计算即可得出)

###实验记录

  1. 用1天的数据进行LR训练,结果在2.3~4%之间,加上转化率特征之后,结果会变差

About

阿里移动推荐算法竞赛

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • C# 44.4%
  • Python 37.9%
  • C++ 17.0%
  • Batchfile 0.7%