Ramenez la coupe à la maison

Download dataset

https://www.kaggle.com/c/12500/download-all
Mettre toutes les données dans \jigsaw-unintended-bias-in-toxicity-classification
Ne mettre que des chemins relatifs dans les scripts

Commencer un modèle de Benchmark de base
Modifier Vectorize pour inclure le dependency tree
Ajouter les données test dans la vectorisation
Attention à la forme de la prédiction finale (catégories vs. float) comme la métrique finale utilise des ROC
- Tester avec des valeurs discrètes en sortie
- Tester avec des valeurs continues en sortie
Les minorités ne sont pas exclusives (e.g. black + homosexuel + mental illness )

"Je suis un 'orientation sexuelle' 'handicap mental' et je déteste les 'religion' (et les) 'race'."

Name		Name	Last commit message	Last commit date
Latest commit History 73 Commits
.ipynb_checkpoints		.ipynb_checkpoints
gensim		gensim
tests		tests
.DS_Store		.DS_Store
DataStream_FE_v0.py		DataStream_FE_v0.py
LSTM_simple_keras_code.ipynb		LSTM_simple_keras_code.ipynb
LSTM_v8_test.py		LSTM_v8_test.py
LSTM_v9_test.py		LSTM_v9_test.py
README.md		README.md
bert-first-version.py		bert-first-version.py
categorize.py		categorize.py
classifier_v6.py		classifier_v6.py
classifier_v6_NN.py		classifier_v6_NN.py
classifier_v8.py		classifier_v8.py
distrib_useless_features.ipynb		distrib_useless_features.ipynb
model_gensim.py		model_gensim.py
preprocess_notebook.ipynb		preprocess_notebook.ipynb
preprocess_notebook_2.ipynb		preprocess_notebook_2.ipynb
toxicity_by_minority.png		toxicity_by_minority.png
v7-bert.py		v7-bert.py