def test_jac(self): opts = ChunkOpts(True) # opts = ChunkOpts() chunk = Chunk( "Но в нём теперь красовалась большая пробоина, которая требовала немедленного ремонта.", "Большими усилиями команды судно удалось вытащить из мели, но в нём теперь красовались большие пробоины, требовавшая немедленного ремонта. ", "", "", 1, opts) sim = ir_utils.jaccard(ir_utils.gen_ngrams(chunk.get_orig_tokens(), 1), ir_utils.gen_ngrams(chunk.get_mod_tokens(), 1)) self.assertLess(0.4, sim)
def test_cos(self): opts = ChunkOpts(True) chunk = Chunk( "Но в нём теперь красовалась большая пробоина, которая требовала немедленного ремонта.", "Большими усилиями команды судно удалось вытащить из мели, но в нём теперь красовалась большая пробоина, требовавшая немедленного ремонта. ", "", "", 1, opts) # print u",".join(chunk.get_mod_tokens()) sim = ir_utils.cos_sim(ir_utils.gen_ngrams(chunk.get_orig_tokens(), 3), ir_utils.gen_ngrams(chunk.get_mod_tokens(), 3)) self.assertLess(0.4, sim)