def test_get_best_replacements(self): """Testea la toma de los mejores strings de cada cluster.""" clusters = { 'es juan per': ['Juan Per\tes'], 'juan peres': [ ' - juan peRes', 'Juan ; Per\xe9s', 'Juan -- Peres', 'ju\xe1n Peres', 'Juan Peres', 'Juan Peres', ' Juan\t \tPeres' ] } counts = { ' Juan\t \tPeres': 1, ' - juan peRes': 1, 'Juan -- Peres': 1, 'Juan ; Per\xe9s': 1, 'Juan Per\tes': 1, 'Juan Peres': 2, 'ju\xe1n Peres': 1 } exp_replacements = { 'es juan per': 'Juan Per\tes', 'juan peres': 'Juan Peres' } replacements = get_best_replacements(clusters, counts) self.assertEqual(replacements, exp_replacements)
def test_fingerprint_methods_together(self): """Testea todos los métodos de fingerprint juntos.""" inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 Piso 6° Of. 604", "DIGCE - Esmeralda 1212 Piso 6° Of. 604"] clusters, counts = group_fingerprint_strings(inp_strings) replacements = get_best_replacements(clusters, counts) clean_strings = replace_by_key(replacements, inp_strings) exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5 self.assertEqual(clean_strings, exp_strings)
def test_get_best_replacements(self): """Testea la toma de los mejores strings de cada cluster.""" clusters = {'es juan per': ['Juan Per\tes'], 'juan peres': [' - juan peRes', 'Juan ; Per\xe9s', 'Juan -- Peres', 'ju\xe1n Peres', 'Juan Peres', 'Juan Peres', ' Juan\t \tPeres']} counts = {' Juan\t \tPeres': 1, ' - juan peRes': 1, 'Juan -- Peres': 1, 'Juan ; Per\xe9s': 1, 'Juan Per\tes': 1, 'Juan Peres': 2, 'ju\xe1n Peres': 1} exp_replacements = {'es juan per': 'Juan Per\tes', 'juan peres': 'Juan Peres'} replacements = get_best_replacements(clusters, counts) self.assertEqual(replacements, exp_replacements)