Estado: En desarrollo
Trabajo final de Grado para la identificación de la autoría de documentos. Haciendo uso de Text Mining y modelos de Machine Learning.
Estracción e identificación de características sobre la escritura de un sujeto.
Instalación de sklearn
python -m pip install sklearn
Instalación de nltk
python -m pip install nltk
Instalación de pandas
python -m pip install pandas
Se ha testeado el modelo sobre el conjunto de datos de iniciatiavas del congreso 2008.
El conjunto de datos se encuentra nativamente en formato XML. Tras eliminar los datos superfluos del mismo, la etiqueta y los documentos se han pasado a formato CSV. Siguiendo esta estructura:
Etiqueta | Texto |
---|---|
Persona 1 | Parrafos concatenados 1 |
Persona 2 | Parrafos concatenados 2 |
Persona 1 | Parrafos concatenados 3 |
Fichero principal que realiza la lectura de los datos, la división train test y las llamadas fit y predict necesarias.
Fichero que contiene el modelo. Ajuste de hiperparámetros, cross-validation, lematización, analizador de frases, TF-IDF y Linear Support Vector Machine. Todo se encuentra recogido en un pipeline único.
Fichero para imprimir información deseada dentro de un pipeline.