首先,先抓取数据,目前我的记录是抓取了10w条,大概有100w~500w条记录 前置性能优化:
- 1.启动redis
$ redis-server
- 2.启动celery
$ celery -A Tasks worker --loglevel=info
python DataCrawer.py
python DataAnalyser.py {生成的.csv文件}
上一步会自动处理数据并生成一个预测子名为clf.pkl存放于当前目录,看到clf知道怎么用的都不用说了吧,接下来主要调准精度。还有一些X.pkl,Y.pkl以供下次使用,毕竟维度太高,小机器跑起来有点吃力
- 数据1: Job Description
- 数据2: 薪水数量
- 数据1: Job Description
- 数据1: 薪水数量