- https://www.kaggle.com/c/12500/download-all
- Mettre toutes les données dans \jigsaw-unintended-bias-in-toxicity-classification
- Ne mettre que des chemins relatifs dans les scripts
- Commencer un modèle de Benchmark de base
- Modifier Vectorize pour inclure le dependency tree
- Ajouter les données test dans la vectorisation
- Attention à la forme de la prédiction finale (catégories vs. float) comme la métrique finale utilise des ROC
- Tester avec des valeurs discrètes en sortie
- Tester avec des valeurs continues en sortie
- Les minorités ne sont pas exclusives (e.g. black + homosexuel + mental illness )
"Je suis un 'orientation sexuelle' 'handicap mental' et je déteste les 'religion' (et les) 'race'."
- Emojis
- Vérifier si il y a des emojis.
- Les encoder si besoin est.