Exemplo n.º 1
0
 def test_palavras_mais_importantes(self, filename = 'the-sorrow-of-love-william-butler-yeats.txt'):
     # 1. carregar o texto a ser tokenizado em palavras
     f = open(filename, 'r')
     texto = ''.join(f.readlines())
     f.close()
     # 2. definir as 3 palavras mais importantes (ocorrentes)
     # do texto para comparação
     palavras_mais_importantes_referencia = [('eaves', 2), ('moon', 2), ('sky', 2)]
     # 3. remover stopwords
     processamento = Processamento(texto = texto)
     processamento.remover_stopwords()
     # 4. calcular frequencia das não stopwords
     processamento.calcular_frequencia_nao_stopwords()
     # 5. solicitar as 3 palavras mais importantes
     # ao objeto processamento
     palavras_mais_importantes_computadas = processamento.palavras_mais_importantes(3)
     # 6. realizar assertion
     self.assertEqual(
         palavras_mais_importantes_computadas,
         palavras_mais_importantes_referencia
     )
     # 7. estabelecer mais comparativos, computar palavras importantes e realizar mais assertions
     palavras_mais_importantes_referencia = [('eaves', 2), ('moon', 2), ('sky', 2), ('leaves', 2), ('man', 2)]
     palavras_mais_importantes_computadas = processamento.palavras_mais_importantes(5)
     self.assertEqual(
         palavras_mais_importantes_computadas,
         palavras_mais_importantes_referencia
     )
Exemplo n.º 2
0
 def test_frequencia_nao_stopwords(self, filename = 'the-sorrow-of-love-william-butler-yeats.txt'):
     # 1. carregar o texto a ser tokenizado em palavras
     f = open(filename, 'r')
     texto = ''.join(f.readlines())
     f.close()
     # 2. definir frequencias para ser comparada
     frequencias = {'brawling': 1, 'sparrow': 1, 'eaves': 2, 'brilliant': 1, 'moon': 2, 'milky': 1, 'sky': 2, 'famous': 1, 'harmony': 1, 'leaves': 2, 'blotted': 1, 'man': 2, "'s": 2, 'image': 2, 'cry': 2, 'girl': 1, 'arose': 2, 'red': 1, 'mournful': 1, 'lips': 1, 'seemed': 1, 'greatness': 1, 'world': 1, 'tears': 1, 'doomed': 1, 'like': 1, 'odysseus': 1, 'labouring': 1, 'ships': 1, 'proud': 1, 'priam': 1, 'murdered': 1, 'peers': 1, 'instant': 1, 'clamorous': 1, 'climbing': 1, 'upon': 1, 'empty': 1, 'lamentation': 1, 'could': 1, 'compose': 1}
     # 3. remover stopwords
     processamento = Processamento(texto = texto)
     processamento.remover_stopwords()
     # 4. calcular frequencia das não stopwords
     processamento.calcular_frequencia_nao_stopwords()
     # 5. realizar assertion
     self.assertEqual(
         frequencias, dict(processamento.frequencia_nao_stopwords)
     )