def test_minhashing(self):
     refset = [['V1', 'label1', u"Un nuage flotta dans le grand ciel bleu."],
               ['V2', 'label2', u"Pour quelle occasion vous êtes-vous apprêtée ?"],
               ['V3', 'label3', u"Je les vis ensemble à plusieurs occasions."],
               ['V4', 'label4', u"Je n'aime pas ce genre de bandes dessinées tristes."],
               ['V5', 'label5', u"Ensemble et à plusieurs occasions, je les vis."],
               ]
     targetset = [['T1', 'labelt1', u"Des grands nuages noirs flottent dans le ciel."],
                  ['T2', 'labelt2', u"Je les ai vus ensemble à plusieurs occasions."],
                  ['T3', 'labelt3', u"J'aime les bandes dessinées de genre comiques."],
                  ]
     normalizer = SimplifyNormalizer(attr_index=2, lemmas=FRENCH_LEMMAS)
     refset = normalizer.normalize_dataset(refset)
     targetset = normalizer.normalize_dataset(targetset)
     blocking = MinHashingBlocking(threshold=0.4, ref_attr_index=2, target_attr_index=2)
     blocking.fit(refset, targetset)
     blocks = list(blocking.iter_indice_blocks())
     for align in (([2, 4], [1]), ([0], [0]), ([3], [2])):
         self.assertIn(align, blocks)
 def test_simplify_record(self):
     normalizer = SimplifyNormalizer(attr_index=1, lemmas=FRENCH_LEMMAS)
     self.assertEqual(['a1', u"aimer frites pomme scoubidou"],
                      normalizer.normalize(['a1', u"J'aime les frites, les pommes "
                                            "et les scoubidous !"]))
 def test_simplify(self):
     normalizer = SimplifyNormalizer(lemmas=FRENCH_LEMMAS)
     self.assertEqual(normalizer.normalize(u"J'aime les frites, les pommes et les scoubidous !")
                      , u"aimer frites pomme scoubidou")