GitHub - cylin1123/NLP-Jieba: Natural Language Processing

Jieba 中文斷字斷詞

Package

Jieba

pip install jieba

NLTK

pip install nltk

Import Library

import jieba
import jieba.analyse as jalz
import jieba.posseg as japseg

使用者定義詞庫

詞典格式 : 一個詞一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。

jieba.load_userdict('user_dict.txt')

分詞

需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

精確模式：將句子最精確地切開，適合文本分析。

words = jieba.cut(content, cut_all=False)

全模式：句子中所有的可以成詞的詞語都掃描出來, 速度快。

words = jieba.cut(content, cut_all=True)

搜索引勤模式：在精確模式的基礎上針對長詞再次進行切分，提高召回率，適合用於搜尋引擎分詞。需要分词的字符串；是否使用 HMM 模型

jieba.cut_for_search(Content)

新建自訂分詞器

新建自訂分詞器，可用於同時使用不同詞典。jieba.dt 為默認分詞器，所有全域分詞相關函數都是該分詞器的映射

jieba.Tokenizer(dictionary=DEFAULT_DICT)

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
NLP-Jieba.ipynb		NLP-Jieba.ipynb
README.md		README.md
Word_Segmentation_Jieba.py		Word_Segmentation_Jieba.py
user_dict.txt		user_dict.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NLP-Jieba.ipynb

NLP-Jieba.ipynb

README.md

README.md

Word_Segmentation_Jieba.py

Word_Segmentation_Jieba.py

user_dict.txt

user_dict.txt

Repository files navigation

Jieba 中文斷字斷詞

Package

Import Library

使用者定義詞庫

分詞

新建自訂分詞器

About

Releases

Packages

Languages

cylin1123/NLP-Jieba

Folders and files

Latest commit

History

Repository files navigation

Jieba 中文斷字斷詞

Package

Import Library

使用者定義詞庫

分詞

新建自訂分詞器

About

Resources

Stars

Watchers

Forks

Languages