Ejemplo n.º 1
0
 def test_should_remove_accents_and_special_chars(self):
     c = PreProcessing()
     expected = ['oi', 'qual', 'e', 'o', 'email', 'do', 'sr', 'joao', 'e', 'joaogmailcom', 'ah', 'eu', 'ja', 'sabia']
     self.assertEquals(expected, c.__normalize__("Oi, qual é o e-mail do Sr. João? "
                                                 "É [email protected]! Ah eu já sabia!"))
     expected = ['o', 'cpf', 'do', 'joao', 'e', '12345678900']
     self.assertEquals(expected, c.__normalize__("o cpf do joao é 123.456.789-00"))
Ejemplo n.º 2
0
 def test_should_remove_newline(self):
     c = PreProcessing()
     expected = ['linha1', 'linha2', 'linha3']
     self.assertEquals(expected, c.__normalize__("\nlinha1 linha2 linha3\n"))
Ejemplo n.º 3
0
 def test_should_remove_accents(self):
     c = PreProcessing()
     expected = ['que', 'horas', 'sao', 'sr', 'joao']
     self.assertEquals(expected, c.__normalize__("que horas são Sr João"))
Ejemplo n.º 4
0
 def test_should_lowercase(self):
     c = PreProcessing()
     expected = ['converter', 'para', 'caixa', 'baixa']
     self.assertEquals(expected, c.__normalize__("ConverTer para CAIXA baiXa"))