Skip to content

marcelob231/clean_text_4_IA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

3 small programs to prepare database texts for mining

remove_extras.py

  1. Eliminate stopwords.
  2. Deletes special characters.
  3. Eliminate words that start with addresses and tags.
  4. Normalizes to lowercase.

noduplicates.py

  1. Delete deduplicates in database by tweet id.

preparation.py

  1. Transforms MongoDb json into Pandas Dataframe.
  2. Tokenize the sentences.
  3. Stemming to reduce words to their base form.

3 pequenos programas para preparar textos do banco de dados para mineração.

remove_extras.py

  1. Elimina stopwords.
  2. Elimina caracteres especiais.
  3. Elimina palavras que iniciam com endereços e tags.
  4. Normaliza para minúsculas.

noduplicates.py

  1. Elimina duplicatas no banco com base na id do tweet.

preparation.py

  1. Transforma json do MongoDb em Dataframe do Pandas.
  2. Tokeniza as sentenças.
  3. Stemming para reduzir palavras a sua forma base.

About

3 pequenos programas para preparar textos do banco de dados MongoDB para mineração.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages