Skip to content

a-shn/NlpLabTestTask

Repository files navigation

NlpLabTestTask

1. Для лемматизации нужен скрипт lemmatizer.py, в который в качестве аргументов подается архив с данными (в нашем случае covid_tweets.csv.gz) и путь с названием для .csv файла с лематизированными твитами:

python3 lemmatizer.py covid_tweets.csv.gz lemmatized_tweets.csv

Результатом скрипта является .csv-файл, содержащий одну колонку 'text', котором содержаться лемматизированные твиты.

2.1) Чтобы удалить стоп-слова нужен скрипт stop_words_deleter.py, в который в качестве аргументов подается файл из предыдущего пункта и путь с названием для .csv файла с удаленными стоп-словами:

python3 stop_words_deleter.py lemmatized_tweets.csv tweets_without_stopwords.csv

Результатом скрипта также является .csv-файл, содержащий одну колонку 'text'.

2.2) Для удаления слов, которые встречаются менее 5 раз, нужен скрипт delete_less_occurred_words.py, в качестве аргументов подается файл из предыдущего шага и путь до нового .csv-файла:

python3 delete_less_occurred_words.py tweets_without_stopwords.csv clear_tweets.csv

Результатом скрипта является .csv-файл, содержащий одну колонку 'text'.

2.3) Для создания таблицы частот нужен скрипт counter.py, в который в качестве аргументов подается .csv-файл с одной колонкой 'text', в нашем случае это clear_tweets.csv и путь до будущей таблицы частот:

python3 counter.py clear_tweets.csv words_occurrences.csv

3. Нужно запустить скрипт LDA_mallet.py и подать в качестве аргумента файл, прошедший пре-процессинг:

python3 LDA_mallet.py clear_tweets.csv

Результатом скрипта будет 3 файла: lda20.txt, lda30.txt, lda50.txt, которые будут содержать 20 наиболее вероятных слов для каждого топика.

4. Перед запуском нужно загрузить данные, в нашем случае это clear_tweets.csv, указать до него путь и последовательно запускать каждую "клетку". Результатом будет .html-файл с визуализацией.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published