示例#1
0
    def test_get_best_replacements(self):
        """Testea la toma de los mejores strings de cada cluster."""
        clusters = {
            'es juan per': ['Juan Per\tes'],
            'juan peres': [
                ' - juan     peRes', 'Juan ; Per\xe9s', 'Juan -- Peres',
                'ju\xe1n Peres', 'Juan Peres', 'Juan Peres',
                '   Juan\t \tPeres'
            ]
        }
        counts = {
            '   Juan\t \tPeres': 1,
            ' - juan     peRes': 1,
            'Juan -- Peres': 1,
            'Juan ; Per\xe9s': 1,
            'Juan Per\tes': 1,
            'Juan Peres': 2,
            'ju\xe1n Peres': 1
        }
        exp_replacements = {
            'es juan per': 'Juan Per\tes',
            'juan peres': 'Juan Peres'
        }
        replacements = get_best_replacements(clusters, counts)

        self.assertEqual(replacements, exp_replacements)
    def test_fingerprint_methods_together(self):
        """Testea todos los métodos de fingerprint juntos."""
        inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604"]

        clusters, counts = group_fingerprint_strings(inp_strings)
        replacements = get_best_replacements(clusters, counts)
        clean_strings = replace_by_key(replacements, inp_strings)
        exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5

        self.assertEqual(clean_strings, exp_strings)
    def test_fingerprint_methods_together(self):
        """Testea todos los métodos de fingerprint juntos."""
        inp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 - Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604",
                       "DIGCE - Esmeralda 1212 Piso 6° Of. 604"]

        clusters, counts = group_fingerprint_strings(inp_strings)
        replacements = get_best_replacements(clusters, counts)
        clean_strings = replace_by_key(replacements, inp_strings)
        exp_strings = ["DIGCE - Esmeralda 1212 - Piso 6° Of. 604"] * 5

        self.assertEqual(clean_strings, exp_strings)
    def test_get_best_replacements(self):
        """Testea la toma de los mejores strings de cada cluster."""
        clusters = {'es juan per': ['Juan Per\tes'],
                    'juan peres': [' - juan     peRes',
                                   'Juan ; Per\xe9s',
                                   'Juan -- Peres',
                                   'ju\xe1n Peres',
                                   'Juan Peres',
                                   'Juan Peres',
                                   '   Juan\t \tPeres']}
        counts = {'   Juan\t \tPeres': 1,
                  ' - juan     peRes': 1,
                  'Juan -- Peres': 1,
                  'Juan ; Per\xe9s': 1,
                  'Juan Per\tes': 1,
                  'Juan Peres': 2,
                  'ju\xe1n Peres': 1}
        exp_replacements = {'es juan per': 'Juan Per\tes',
                            'juan peres': 'Juan Peres'}
        replacements = get_best_replacements(clusters, counts)

        self.assertEqual(replacements, exp_replacements)