def test_minhashing(self): refset = [['V1', 'label1', u"Un nuage flotta dans le grand ciel bleu."], ['V2', 'label2', u"Pour quelle occasion vous êtes-vous apprêtée ?"], ['V3', 'label3', u"Je les vis ensemble à plusieurs occasions."], ['V4', 'label4', u"Je n'aime pas ce genre de bandes dessinées tristes."], ['V5', 'label5', u"Ensemble et à plusieurs occasions, je les vis."], ] targetset = [['T1', 'labelt1', u"Des grands nuages noirs flottent dans le ciel."], ['T2', 'labelt2', u"Je les ai vus ensemble à plusieurs occasions."], ['T3', 'labelt3', u"J'aime les bandes dessinées de genre comiques."], ] normalizer = SimplifyNormalizer(attr_index=2, lemmas=FRENCH_LEMMAS) refset = normalizer.normalize_dataset(refset) targetset = normalizer.normalize_dataset(targetset) blocking = MinHashingBlocking(threshold=0.4, ref_attr_index=2, target_attr_index=2) blocking.fit(refset, targetset) blocks = list(blocking.iter_indice_blocks()) for align in (([2, 4], [1]), ([0], [0]), ([3], [2])): self.assertIn(align, blocks)
def test_simplify_record(self): normalizer = SimplifyNormalizer(attr_index=1, lemmas=FRENCH_LEMMAS) self.assertEqual(['a1', u"aimer frites pomme scoubidou"], normalizer.normalize(['a1', u"J'aime les frites, les pommes " "et les scoubidous !"]))
def test_simplify(self): normalizer = SimplifyNormalizer(lemmas=FRENCH_LEMMAS) self.assertEqual(normalizer.normalize(u"J'aime les frites, les pommes et les scoubidous !") , u"aimer frites pomme scoubidou")