L'algorithme proposée devra pouvoir identifier des cancers métastatiques au niveau de portions d'images extraites de scans.
- Histopathologie : discipline médicale destinée à faire un diagnostic par l'étude microscopique de prélévements de tissus.
- Tissu : Organization cellulaire ou ensemble de cellules
- Métastases : Propagation d'un agent pathogène (cellules cancéreuses dans notre cas) d'un site primaire (cancer primaire) vers d'autres sites. Les nouveaux sites infectés seront également nommés Métastases.
- Tissus métastatiques : Tissus abritant des métastases par conséquent tissus cancéreux
Les données proposées par le site Kaggle sont dérivées du dataset PatchCamelyon (PCam) dont les doublons ont été retiré. PCam est une base d'images riches cependant de petite taille contenant 327680 images en couleur de résolution (96 x 96px) extraites de scans histopathologiques de sections de ganglions lymphatiques. Vue sa taille, un model pourrai facilement exploiter ce dataset sur un GPU en quelques heures et obtenir des scores de detection de cancers assez elevés. Le jeu de données proposé comprend:
- une série d'images d'entrainement libellées (fichier CSV) 0 et 1 (0 négatif et 1 positif)
- une série d'images de test
- Date de démarrage du concours: 16 Novembre 2018
- Date de fin du concours: 30 Mars 2019
Les soumissions sont évaluées sur la surface sous la courbe ROC entre la probabilité prédite et la cible observée.
- Mettre en pratique les techniques de DeepLearning acquises
- Obtenir une première base de travail pouvant faire l'objet d'évolution. Cette base pourra être réutiliser dans le cadre d'autres travaux relatifs
- Implémenter un model performant et efficace avec un score minimum de 0.9 (90%) en un temps record
- Le code source sera stocké sur un repository Github
- Le projet et tableau Kanbaan sera de même stocké sur Github
L'implémentation de notre model se fera sur la base du framework DeepLearning Keras. Le projet sera structuré ainsi:
- utils : contient les utilitaires et outils de création rapide
- mock-data : contient un sous ensemble du jeu de données afin de pouvoir tester rapidement le model
- models : contient nos models et/ou models importés
- outputs : contient le résultat des travaux
- config : contient la configuration générale (chemins des fichiers et paramétres initiaux entre autres)