def test_should_build_bag_of_words(self): p = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"]) text = "O técnico João foi até a casa da Maria (NOMEEMPRESA) e solucionou o problema. " \ "Ele não foi solucionado? NomeempProd" tokens = p.clean(text) tokens = p.stem(tokens) bow, bfn = p.build_bow(tokens) self.assertEquals("(7, 6)", bow.shape.__str__())
def test_should_stem(self): c = PreProcessing() tokens = ["tecnico", "ate", "casa", "solucionou", "problema", "ainda", "persisti"] expected = ["tecn", "ate", "cas", "solucion", "problem", "aind", "persist"] self.assertEquals(expected, c.stem(tokens))