def test_should_build_bag_of_words(self): p = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"]) text = "O técnico João foi até a casa da Maria (NOMEEMPRESA) e solucionou o problema. " \ "Ele não foi solucionado? NomeempProd" tokens = p.clean(text) tokens = p.stem(tokens) bow, bfn = p.build_bow(tokens) self.assertEquals("(7, 6)", bow.shape.__str__())
def test_should_clean_text(self): c = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"]) text = "O técnico joão foi até a casa da maria (nomeempresa) e solucionou o problema. " \ "Ele ainda persisti? nomeempprod" expected = ["tecnico", "ate", "casa", "solucionou", "problema", "ainda", "persisti"] self.assertEqual(expected, c.clean(text))