def test_group_fingerprint_strings(self): """Testea el agrupamiento de strings, por su fingerpint.""" input_strings = [ " - juan peRes", "Juan ; Perés", "Juan -- Peres", "Juan Per\tes", "juán Peres", "Juan Peres", "Juan Peres", " Juan\t \tPeres", ] exp_clusters = { 'es juan per': ['Juan Per\tes'], 'juan peres': [ ' - juan peRes', 'Juan ; Per\xe9s', 'Juan -- Peres', 'ju\xe1n Peres', 'Juan Peres', 'Juan Peres', ' Juan\t \tPeres' ] } exp_counts = { ' Juan\t \tPeres': 1, ' - juan peRes': 1, 'Juan -- Peres': 1, 'Juan ; Per\xe9s': 1, 'Juan Per\tes': 1, 'Juan Peres': 2, 'ju\xe1n Peres': 1 } clusters, counts = group_fingerprint_strings(input_strings, True, True) self.assertEqual(clusters, exp_clusters) self.assertEqual(counts, exp_counts)
def test_group_fingerprint_strings(self): """Testea el agrupamiento de strings, por su fingerpint.""" input_strings = [ " - juan peRes", "Juan ; Perés", "Juan -- Peres", "Juan Per\tes", "juán Peres", "Juan Peres", "Juan Peres", " Juan\t \tPeres", ] exp_clusters = {'es juan per': ['Juan Per\tes'], 'juan peres': [' - juan peRes', 'Juan ; Per\xe9s', 'Juan -- Peres', 'ju\xe1n Peres', 'Juan Peres', 'Juan Peres', ' Juan\t \tPeres']} exp_counts = {' Juan\t \tPeres': 1, ' - juan peRes': 1, 'Juan -- Peres': 1, 'Juan ; Per\xe9s': 1, 'Juan Per\tes': 1, 'Juan Peres': 2, 'ju\xe1n Peres': 1} clusters, counts = group_fingerprint_strings(input_strings, True, True) self.assertEqual(clusters, exp_clusters) self.assertEqual(counts, exp_counts)
def test_fingerprint_methods_together(self): """Testea todos los métodos de fingerprint juntos.""" inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 - Piso 6° Of. 604", "DIGCE - Esmeralda 1212 Piso 6° Of. 604", "DIGCE - Esmeralda 1212 Piso 6° Of. 604"] clusters, counts = group_fingerprint_strings(inp_strings) replacements = get_best_replacements(clusters, counts) clean_strings = replace_by_key(replacements, inp_strings) exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5 self.assertEqual(clean_strings, exp_strings)