def test_should_remove_digits(self): c = PreProcessing(["joao"], [], ["\d+"]) self.assertEquals(["tem", "anos"], c.__obfuscate__(["joao", "tem", "12", "anos"])) self.assertEquals(["anos", "e", "amigos", "no", "facebook"], c.__obfuscate__(["joao", "12", "anos", "e", "1765546587", "amigos", "no", "facebook"])) self.assertEquals(["o", "cpf", "do", "e"], c.__obfuscate__(["o", "cpf", "do", "joao", "e", "123.456.789-00"]))
def test_should_remove_noisy(self): c = PreProcessing([], ["ruido"], []) self.assertEquals(["dados", "com", "deve", "ser", "removido"], c.__obfuscate__(["dados", "com", "ruido", "deve", "ser", "removido"]))
def test_should_remove_nnps(self): c = PreProcessing(["joao", "victor", "almeida"], [], []) expected = ["ola", "vitor", ",", "tudo", "bem", "?"] self.assertEquals(expected, c.__obfuscate__(["ola", "joao", "vitor", "almeida", ",", "tudo", "bem", "?"]))