Perceptron & Pegasos

Implementação de dois classificadores de emails usando Perceptron e SVM Pegasos. O dataset utilizado é subconjunto do SpamAssassin Public Corpus.

Dataset

Os arquivos de input estão separados da seguinte forma:

spam_train.txt para o treino
spam_val.txt para a validação

Cada linha é um email, começando com o rótulo 1 ou 0, 1 para spam e 0 não-spam. Os emails estão normalizados (URL's, valores monetários, endereços de emails), para melhorar o desempenho do classificador.

Execução

python main.py

O número de iterações máxima do perceptron pode ser alterada pela constante PERCEPTRON_MAX_ITER, assim como quais lambdas o Pegasos irá executar.

Output

Ao final da execução, é mostrado a % de erros ao executar no dataset de validação.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
helpers.py		helpers.py
main.py		main.py
pegasos.py		pegasos.py
perceptron.py		perceptron.py
spam_train.txt		spam_train.txt
spam_val.txt		spam_val.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

helpers.py

helpers.py

main.py

main.py

pegasos.py

pegasos.py

perceptron.py

perceptron.py

spam_train.txt

spam_train.txt

spam_val.txt

spam_val.txt

Repository files navigation

Perceptron & Pegasos

Dataset

Execução

Output

About

Releases

Packages

Languages

gabrielbc/Perceptron-Pegasos

Folders and files

Latest commit

History

Repository files navigation

Perceptron & Pegasos

Dataset

Execução

Output

About

Resources

Stars

Watchers

Forks

Languages