1、Python语言的应用之 Demo_Jieba_Python

Jieba分词。先获取xlsx文件的语料内容，然后再针对语料进行分词。

2、更新信息

开发者：沙振宇（沙师弟专栏）
创建时间：2019-12-2
最后一次更新时间：2019-12-5
CSDN博客地址：https://shazhenyu.blog.csdn.net/article/details/103403711

3、分词

3.1、分词——全模式

seg_list = jieba.cut(label, cut_all=True)

3.2、分词——精确模式

seg_list = jieba.cut(label, cut_all=False)

3.3、分词——搜索引擎模式

seg_list = jieba.cut_for_search(label)

3.4、分词——默认模式（默认是精确模式）

seg_list = jieba.cut(label)

3.5、分词——TextRank 关键词抽取，只获取固定词性

words = jieba.analyse.textrank(label, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

3.6、分词——去除标点符号

3.6.1、分词——去除标点符号——去除所有半角全角符号，只留字母、数字、中文

rule = re.compile(u"[^a-zA-Z0-9\u4e00-\u9fa5]")
label = rule.sub('',label)

3.6.2、分词——去除标点符号——手工指定标点符号

punctuation ="""！？｡＂＃＄％＆＇（）＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
re_punctuation ="[{}]+".format(punctuation)
label = re.sub(re_punctuation, "", label).strip()

4、读取Excel文件

4.1、读取Excel文件——打开文件

workbook = xlrd.open_workbook(path)

4.2、读取Excel文件——根据sheet索引或者名称获取sheet内容

sheet = workbook.sheet_by_index(page)

4.3、读取Excel文件——sheet的名称，行数，列数

print("Sheet的名称:", sheet.name, ",行数:", sheet.nrows, ",列数:", sheet.ncols)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
file		file
python		python
.gitignore		.gitignore
README.md		README.md
效果.png		效果.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

file

file

python

python

.gitignore

.gitignore

README.md

README.md

效果.png

效果.png

Repository files navigation

1、Python语言的应用之 Demo_Jieba_Python

2、更新信息

3、分词

3.1、分词——全模式

3.2、分词——精确模式

3.3、分词——搜索引擎模式

3.4、分词——默认模式（默认是精确模式）

3.5、分词——TextRank 关键词抽取，只获取固定词性

3.6、分词——去除标点符号

3.6.1、分词——去除标点符号——去除所有半角全角符号，只留字母、数字、中文

3.6.2、分词——去除标点符号——手工指定标点符号

4、读取Excel文件

4.1、读取Excel文件——打开文件

4.2、读取Excel文件——根据sheet索引或者名称获取sheet内容

4.3、读取Excel文件——sheet的名称，行数，列数

4.4、读取Excel文件——获取内容

5、去除数组中的\n符

6、运行效果

About

Releases

Packages

Languages

ShaShiDiZhuanLan/Demo_Jieba_Python

Folders and files

Latest commit

History

Repository files navigation

1、Python语言的应用 之 Demo_Jieba_Python

2、更新信息

3、分词

3.1、分词——全模式

3.2、分词——精确模式

3.3、分词——搜索引擎模式

3.4、分词——默认模式（默认是精确模式）

3.5、分词——TextRank 关键词抽取，只获取固定词性

3.6、分词——去除标点符号

3.6.1、分词——去除标点符号——去除所有半角全角符号，只留字母、数字、中文

3.6.2、分词——去除标点符号——手工指定标点符号

4、读取Excel文件

4.1、读取Excel文件——打开文件

4.2、读取Excel文件——根据sheet索引或者名称获取sheet内容

4.3、读取Excel文件——sheet的名称，行数，列数

4.4、读取Excel文件——获取内容

5、去除数组中的\n符

6、运行效果

About

Resources

Stars

Watchers

Forks

Languages

1、Python语言的应用之 Demo_Jieba_Python