Ejemplo n.º 1
0
 def test_palavras_mais_importantes(self, filename = 'the-sorrow-of-love-william-butler-yeats.txt'):
     # 1. carregar o texto a ser tokenizado em palavras
     f = open(filename, 'r')
     texto = ''.join(f.readlines())
     f.close()
     # 2. definir as 3 palavras mais importantes (ocorrentes)
     # do texto para comparação
     palavras_mais_importantes_referencia = [('eaves', 2), ('moon', 2), ('sky', 2)]
     # 3. remover stopwords
     processamento = Processamento(texto = texto)
     processamento.remover_stopwords()
     # 4. calcular frequencia das não stopwords
     processamento.calcular_frequencia_nao_stopwords()
     # 5. solicitar as 3 palavras mais importantes
     # ao objeto processamento
     palavras_mais_importantes_computadas = processamento.palavras_mais_importantes(3)
     # 6. realizar assertion
     self.assertEqual(
         palavras_mais_importantes_computadas,
         palavras_mais_importantes_referencia
     )
     # 7. estabelecer mais comparativos, computar palavras importantes e realizar mais assertions
     palavras_mais_importantes_referencia = [('eaves', 2), ('moon', 2), ('sky', 2), ('leaves', 2), ('man', 2)]
     palavras_mais_importantes_computadas = processamento.palavras_mais_importantes(5)
     self.assertEqual(
         palavras_mais_importantes_computadas,
         palavras_mais_importantes_referencia
     )
Ejemplo n.º 2
0
 def test_remocao_stopwords(self, filename = 'the-sorrow-of-love-william-butler-yeats.txt'):
     # 1. carregar o texto a ser tokenizado em palavras
     f = open(filename, 'r')
     texto = ''.join(f.readlines())
     f.close()
     # 2. definir texto sem stopwords para ser comparado
     texto_sem_stopwords = ['brawling', 'sparrow', 'eaves', 'brilliant', 'moon', 'milky', 'sky', 'famous', 'harmony', 'leaves', 'blotted', 'man', "'s", 'image', 'cry', 'girl', 'arose', 'red', 'mournful', 'lips', 'seemed', 'greatness', 'world', 'tears', 'doomed', 'like', 'odysseus', 'labouring', 'ships', 'proud', 'priam', 'murdered', 'peers', 'arose', 'instant', 'clamorous', 'eaves', 'climbing', 'moon', 'upon', 'empty', 'sky', 'lamentation', 'leaves', 'could', 'compose', 'man', "'s", 'image', 'cry']
     # 3. remover stopwords
     processamento = Processamento(texto = texto)
     processamento.remover_stopwords()
     # 4. relizar assertion
     self.assertEqual(
         processamento.texto_sem_stopwords, texto_sem_stopwords
     )
Ejemplo n.º 3
0
 def test_frequencia_nao_stopwords(self, filename = 'the-sorrow-of-love-william-butler-yeats.txt'):
     # 1. carregar o texto a ser tokenizado em palavras
     f = open(filename, 'r')
     texto = ''.join(f.readlines())
     f.close()
     # 2. definir frequencias para ser comparada
     frequencias = {'brawling': 1, 'sparrow': 1, 'eaves': 2, 'brilliant': 1, 'moon': 2, 'milky': 1, 'sky': 2, 'famous': 1, 'harmony': 1, 'leaves': 2, 'blotted': 1, 'man': 2, "'s": 2, 'image': 2, 'cry': 2, 'girl': 1, 'arose': 2, 'red': 1, 'mournful': 1, 'lips': 1, 'seemed': 1, 'greatness': 1, 'world': 1, 'tears': 1, 'doomed': 1, 'like': 1, 'odysseus': 1, 'labouring': 1, 'ships': 1, 'proud': 1, 'priam': 1, 'murdered': 1, 'peers': 1, 'instant': 1, 'clamorous': 1, 'climbing': 1, 'upon': 1, 'empty': 1, 'lamentation': 1, 'could': 1, 'compose': 1}
     # 3. remover stopwords
     processamento = Processamento(texto = texto)
     processamento.remover_stopwords()
     # 4. calcular frequencia das não stopwords
     processamento.calcular_frequencia_nao_stopwords()
     # 5. realizar assertion
     self.assertEqual(
         frequencias, dict(processamento.frequencia_nao_stopwords)
     )