Document-ML-NLP

A project to analyse, classify and extract information from documents. All documents are converted to html format and stored on MongDB. The document data on MongoDB includes file name, file path, html string, text string, encoded features, text string, tokenized word list, etc. The extracted data from the documents are modelized and stored in MySQL database.

The jupyter notebooks at root contains implementation of the document classification tasks. All the functions and modules built to implement the classification tasks are stored in the ml folder. The nlp folder contains All NLP text mining code. The etl folder stores the code to transform, modelized and load extracted document data to MySQL database.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.idea		.idea
.ipynb_checkpoints		.ipynb_checkpoints
babel		babel
data		data
etl		etl
ml		ml
nlp		nlp
Classification_Commission.ipynb		Classification_Commission.ipynb
Classification_Commission2_RF_AdaBoost_GradientBoost.ipynb		Classification_Commission2_RF_AdaBoost_GradientBoost.ipynb
Classification_Commission3_GradientBoost.ipynb		Classification_Commission3_GradientBoost.ipynb
Classification_Commission_Deep_Learning.ipynb		Classification_Commission_Deep_Learning.ipynb
Classification_Filed.ipynb		Classification_Filed.ipynb
Commission Sheet Analysis.ipynb		Commission Sheet Analysis.ipynb
README.md		README.md
Sales_TKT_Analysis.ipynb		Sales_TKT_Analysis.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

.ipynb_checkpoints

.ipynb_checkpoints

babel

babel

data

data

etl

etl

ml

ml

nlp

nlp

Classification_Commission.ipynb

Classification_Commission.ipynb

Classification_Commission2_RF_AdaBoost_GradientBoost.ipynb

Classification_Commission2_RF_AdaBoost_GradientBoost.ipynb

Classification_Commission3_GradientBoost.ipynb

Classification_Commission3_GradientBoost.ipynb

Classification_Commission_Deep_Learning.ipynb

Classification_Commission_Deep_Learning.ipynb

Classification_Filed.ipynb

Classification_Filed.ipynb

Commission Sheet Analysis.ipynb

Commission Sheet Analysis.ipynb

README.md

README.md

Sales_TKT_Analysis.ipynb

Sales_TKT_Analysis.ipynb

Repository files navigation

Document-ML-NLP

About

Releases

Packages

Contributors 2

Languages

JialuCarolChen/Document-ML-NLP

Folders and files

Latest commit

History

Repository files navigation

Document-ML-NLP

About

Resources

Stars

Watchers

Forks

Languages