예제 #1
0
    def test_group_fingerprint_strings(self):
        """Testea el agrupamiento de strings, por su fingerpint."""
        input_strings = [
            " - juan     peRes",
            "Juan ; Perés",
            "Juan -- Peres",
            "Juan Per\tes",
            "juán Peres",
            "Juan Peres",
            "Juan Peres",
            "   Juan\t \tPeres",
        ]
        exp_clusters = {
            'es juan per': ['Juan Per\tes'],
            'juan peres': [
                ' - juan     peRes', 'Juan ; Per\xe9s', 'Juan -- Peres',
                'ju\xe1n Peres', 'Juan Peres', 'Juan Peres',
                '   Juan\t \tPeres'
            ]
        }
        exp_counts = {
            '   Juan\t \tPeres': 1,
            ' - juan     peRes': 1,
            'Juan -- Peres': 1,
            'Juan ; Per\xe9s': 1,
            'Juan Per\tes': 1,
            'Juan Peres': 2,
            'ju\xe1n Peres': 1
        }
        clusters, counts = group_fingerprint_strings(input_strings, True, True)

        self.assertEqual(clusters, exp_clusters)
        self.assertEqual(counts, exp_counts)
    def test_group_fingerprint_strings(self):
        """Testea el agrupamiento de strings, por su fingerpint."""
        input_strings = [
            " - juan     peRes",
            "Juan ; Perés",
            "Juan -- Peres",
            "Juan Per\tes",
            "juán Peres",
            "Juan Peres",
            "Juan Peres",
            "   Juan\t \tPeres",
        ]
        exp_clusters = {'es juan per': ['Juan Per\tes'],
                        'juan peres': [' - juan     peRes',
                                       'Juan ; Per\xe9s',
                                       'Juan -- Peres',
                                       'ju\xe1n Peres',
                                       'Juan Peres',
                                       'Juan Peres',
                                       '   Juan\t \tPeres']}
        exp_counts = {'   Juan\t \tPeres': 1,
                      ' - juan     peRes': 1,
                      'Juan -- Peres': 1,
                      'Juan ; Per\xe9s': 1,
                      'Juan Per\tes': 1,
                      'Juan Peres': 2,
                      'ju\xe1n Peres': 1}
        clusters, counts = group_fingerprint_strings(input_strings, True,
                                                     True)

        self.assertEqual(clusters, exp_clusters)
        self.assertEqual(counts, exp_counts)
    def test_fingerprint_methods_together(self):
        """Testea todos los métodos de fingerprint juntos."""
        inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604"]

        clusters, counts = group_fingerprint_strings(inp_strings)
        replacements = get_best_replacements(clusters, counts)
        clean_strings = replace_by_key(replacements, inp_strings)
        exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5

        self.assertEqual(clean_strings, exp_strings)
    def test_fingerprint_methods_together(self):
        """Testea todos los métodos de fingerprint juntos."""
        inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604"]

        clusters, counts = group_fingerprint_strings(inp_strings)
        replacements = get_best_replacements(clusters, counts)
        clean_strings = replace_by_key(replacements, inp_strings)
        exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5

        self.assertEqual(clean_strings, exp_strings)