Autoría de documentos

Estado: En desarrollo

Autoría de documentos

Trabajo final de Grado para la identificación de la autoría de documentos. Haciendo uso de Text Mining y modelos de Machine Learning.

Uso

Estracción e identificación de características sobre la escritura de un sujeto.

Requerimientos

Python 3.6
sklearn
nlkt
pandas

Instalación

Instalación de sklearn

python -m pip install sklearn

Instalación de nltk

python -m pip install nltk

Instalación de pandas

python -m pip install pandas

Conjunto de datos

Se ha testeado el modelo sobre el conjunto de datos de iniciatiavas del congreso 2008.

Dataset

El conjunto de datos se encuentra nativamente en formato XML. Tras eliminar los datos superfluos del mismo, la etiqueta y los documentos se han pasado a formato CSV. Siguiendo esta estructura:

Etiqueta	Texto
Persona 1	Parrafos concatenados 1
Persona 2	Parrafos concatenados 2
Persona 1	Parrafos concatenados 3

Ficheros

Fichero principal que realiza la lectura de los datos, la división train test y las llamadas fit y predict necesarias.

main.py

Fichero que contiene el modelo. Ajuste de hiperparámetros, cross-validation, lematización, analizador de frases, TF-IDF y Linear Support Vector Machine. Todo se encuentra recogido en un pipeline único.

Authorship.py

Fichero para imprimir información deseada dentro de un pipeline.

NVarPrint.py

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
.vscode		.vscode
Authorship		Authorship
doc		doc
exe		exe
papers		papers
ppt		ppt
script		script
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
dockerfile		dockerfile
requirements.txt		requirements.txt
setup.py		setup.py

License

yoskitar/Authorship

Folders and files

Latest commit

History

Repository files navigation

Autoría de documentos

Uso

Requerimientos

Instalación

Conjunto de datos

Ficheros

About

Resources

License

Stars

Watchers

Forks

Languages