示例#1
0
    def test_should_build_bag_of_words(self):
        p = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"])

        text = "O técnico João foi até a casa da Maria (NOMEEMPRESA) e solucionou o problema. " \
               "Ele não foi solucionado? NomeempProd"
        tokens = p.clean(text)
        tokens = p.stem(tokens)

        bow, bfn = p.build_bow(tokens)
        self.assertEquals("(7, 6)", bow.shape.__str__())
示例#2
0
 def test_should_stem(self):
     c = PreProcessing()
     tokens = ["tecnico", "ate", "casa", "solucionou", "problema", "ainda", "persisti"]
     expected = ["tecn", "ate", "cas", "solucion", "problem", "aind", "persist"]
     self.assertEquals(expected, c.stem(tokens))