Exemplo n.º 1
0
    def test_should_build_bag_of_words(self):
        p = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"])

        text = "O técnico João foi até a casa da Maria (NOMEEMPRESA) e solucionou o problema. " \
               "Ele não foi solucionado? NomeempProd"
        tokens = p.clean(text)
        tokens = p.stem(tokens)

        bow, bfn = p.build_bow(tokens)
        self.assertEquals("(7, 6)", bow.shape.__str__())
Exemplo n.º 2
0
 def test_should_clean_text(self):
     c = PreProcessing(["joao", "maria"], [], ["\d+", "nomeemp*"])
     text = "O técnico joão foi até a casa da maria (nomeempresa) e solucionou o problema. " \
            "Ele ainda persisti? nomeempprod"
     expected = ["tecnico", "ate", "casa", "solucionou", "problema", "ainda", "persisti"]
     self.assertEqual(expected, c.clean(text))