def retrain(seg_instance): """重新使用内置词典训练 seg_instance。 比如在增加自定义词语信息后需要调用这个模块重新训练分词器 :type seg_instance: Seg """ seg_instance.train(PHRASES_DICT.keys())
:param word_s: 词语库列表 :type word_s: iterable :return: None """ for word in word_s: # 把词语的每个前缀更新到 prefix_set 中 for index in range(len(word)): self._set.add(word[:index + 1]) def __contains__(self, key): return key in self._set p_set = PrefixSet() p_set.train(PHRASES_DICT.keys()) #: 基于内置词库的最大正向匹配分词器。使用: #: #: .. code-block:: python #: #: >>> from pypinyin.contrib.mmseg import seg #: >>> text = '你好,我是中国人,我爱我的祖国' #: >>> seg.cut(text) #: <generator object Seg.cut at 0x10b2df2b0> #: >>> list(seg.cut(text)) #: ['你好', ',', '我', '是', '中国人', ',', '我', '爱', #: '我的', '祖', '国'] #: >>> seg.train(['祖国', '我是']) #: >>> list(seg.cut(text)) #: ['你好', ',', '我是', '中国人', ',', '我', '爱',
:param word_s: 词语库列表 :type word_s: iterable :return: None """ for word in word_s: # 把词语的每个前缀更新到 prefix_set 中 for index in range(len(word)): self._set.add(word[:index + 1]) def __contains__(self, key): return key in self._set p_set = PrefixSet() p_set.train(PHRASES_DICT.keys()) #: 基于内置词库的最大正向匹配分词器。使用:: #: #: >>> from pypinyin.contrib.mmseg import seg #: >>> text = '你好,我是中国人,我爱我的祖国' #: >>> seg.cut(text) #: <generator object Seg.cut at 0x10b2df2b0> #: >>> list(seg.cut(text)) #: ['你好', ',', '我', '是', '中国人', ',', '我', '爱', #: '我的', '祖', '国'] #: >>> seg.train(['祖国', '我是']) #: >>> list(seg.cut(text)) #: ['你好', ',', '我是', '中国人', ',', '我', '爱', #: '我的', '祖国'] #: >>>