Пример #1
0
 def setUpClass(cls):
     tokenizer = Tokenizer()
     cls.bj = bag_jag()
     cls.bd0 = bag_dict().read(tokenizer, {
         '_id': '0',
         'title': 'テストデータ',
         'body': 'テスト',
         'anchor': 'モニタ',
     })
     cls.bj.append(cls.bd0)
     cls.bd1 = bag_dict().read(tokenizer, {
         '_id': '1',
         'title': 'テストデータ',
         'body': 'テスト',
     })
     cls.bj.append(cls.bd1)
     cls.bd2 = bag_dict().read(tokenizer, {
         '_id': '2',
         'body': 'テスト',
     })
     cls.bj.append(cls.bd2)
     cls.bd3 = bag_dict().read(tokenizer, {
         '_id': '3',
     })
     cls.bj.append(cls.bd3)
     cls.query = bag_of_words()
     cls.query['テスト'] = 1
     cls.query['モニタ'] = 1
Пример #2
0
 def test_weight_continuous(self):
     tokenizer = Tokenizer()
     bj = bag_jag()
     bd0 = bag_dict().read(tokenizer, {'~pv': 1})
     bj.append(bd0)
     bd1 = bag_dict().read(tokenizer, {'~pv': 10})
     bj.append(bd1)
     bd2 = bag_dict().read(tokenizer, {'~pv': 100})
     bj.append(bd2)
     self.assertEqual((1 * 1.0), weight('ダミー', bd0, bj))
     self.assertEqual((10 * 1.0), weight('ダミー', bd1, bj))
     self.assertEqual((100 * 1.0), weight('ダミー', bd2, bj))
Пример #3
0
 def setUpClass(cls):
     cls.tokenizer = Tokenizer()
     cls.bj = bag_jag()
     bd0 = bag_dict().read(cls.tokenizer, {
         'title': 'テストデータ',
         'body': 'テスト',
         'anchor': 'モニタ',
     })
     bd1 = bag_dict().read(cls.tokenizer, {
         'title': 'テストデータ',
         'body': 'テスト',
     })
     bd2 = bag_dict().read(cls.tokenizer, {
         'body': 'テスト',
     })
     bd3 = bag_dict().read(cls.tokenizer, {})
     cls.bj.append(bd0).append(bd1).append(bd2).append(bd3)
Пример #4
0
 def test_tokenizer_with_pos_filter(self):
     m = Tokenizer(pos_filter=self.pos_filter)
     self.assertEqual([
         ('テスト', '名詞-サ変接続'),
         ('データ', '名詞-一般'),
     ], m.tokenize_smartly('テストのデータ'))
Пример #5
0
 def test_tokenizer_with_stem_filter(self):
     m = Tokenizer(stem_filter=self.stem_filter)
     self.assertEqual([
         ('テスト', '名詞-サ変接続'),
         ('データ', '名詞-一般'),
     ], m.tokenize_smartly('その他テストデータ'))
Пример #6
0
 def test_tokenizer(self):
     m = Tokenizer()
     self.assertEqual([
         ('テスト', '名詞-サ変接続'),
         ('データ', '名詞-一般'),
     ], m.tokenize_smartly('テストデータ'))