Skip to content

Jesszen/data_operation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

data_operation

主要是《Python数据分析与数据化运营》的学习

1、chapter01文件 ------数据处理留存 厘清数据分析的思路 数据读取--》数据审查及预处理--》数据分析--》建立模型--》模型评估--》模型应用

2、chapter02文件 ------数据读取 涉及到相关数据源的读取 a、本地数据读取 txt、excel、csv等格式。 b、数据库文件读取 mysql,mongodb

3、chapter03文件 ------数据预处理 主要数据预处理 a、数据清洗:缺失值、重复值、以及异常值 b、分类变量/顺序变量: 1、字符串格式,先转换int型 2、真值转换 c、数据降维 1、PCA 2、DecisionTreeClassifier判断相对权重 d、样本分类不平衡 1、过采样 2、欠采样 3、部分模型已经封装了相关的处理方法,eg SVR模型的class参数 e、数据抽样 1、简单随机抽样 2、等距抽样 3、分层抽样 f、解决共线问题 1、共线判断 容忍度,vif,协方差矩阵 2、如何处理 正则化项、PCA降维,筛选特征 g、数据标准化 1、标准化的目的 2、如何实现标准化 中心化、归一化等 h、离散化 1、时间数据离散化 2、连续值数据离散化 3、已离散数据,再次离散化 i、文本数据 1、分词 2、词向量

4、chapter04 ------经典模型 经典模型 a、聚类 b、分类 c、线性回归 d、时间序列 e、文本聚类及词云展示

5、chapter05 -------会员数据化运营 a、会员价值模型RFM b、影响响应预测模型

6、chapter06 -------商品数据化运营 a、基于超参优化GradientBoost的销量预测 b、基于LogisticRegression、RandomForest,Bagging概率投票组合模型

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages