- Eliminate stopwords.
- Deletes special characters.
- Eliminate words that start with addresses and tags.
- Normalizes to lowercase.
- Delete deduplicates in database by tweet id.
- Transforms MongoDb json into Pandas Dataframe.
- Tokenize the sentences.
- Stemming to reduce words to their base form.
- Elimina stopwords.
- Elimina caracteres especiais.
- Elimina palavras que iniciam com endereços e tags.
- Normaliza para minúsculas.
- Elimina duplicatas no banco com base na id do tweet.
- Transforma json do MongoDb em Dataframe do Pandas.
- Tokeniza as sentenças.
- Stemming para reduzir palavras a sua forma base.