def keywords(): f = open(path + '政府的救助措施.txt', encoding='gbk') # 疫情传播、疫情防控、疫情救治、疫情对经济的影响、政府的救助措施 text = f.read() n = 10 # keywords_nums # SnowNLP s = SnowNLP(text) print(s.keywords(n)) # jiagu keywords = jiagu.keywords(text, n) # 关键词 print(keywords)
def test_keywords(self): text = ''' 该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示, “尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程 贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的 问题,这个发现令人吃惊。” NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一 长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为, 植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。” “MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动 也作出了贡献。” NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林 工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。 据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育 830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程 完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江 流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。 ''' keywords = jiagu.keywords(text, 5) # 关键词 self.assertTrue(len(keywords) == 5)
def nlp_jiagu(self, btn): text = str(self.lbl.text.strip()).replace("\n", "") if text[-2:] == "qg": sentiment = jiagu.sentiment(text[:-2]) self.lbl.text = pprint.pformat(sentiment) elif text[-2:] == "cq": keywords = jiagu.keywords(text, 5) # 关键词 self.lbl.text = pprint.pformat(keywords) elif text[-2:] == "jl": if "," in self.lbl.text: docs = self.lbl.text.split(",") else: docs = self.lbl.text.split(",") #print(docs) cluster = jiagu.text_cluster(docs) self.lbl.text = pprint.pformat(cluster) else: knowledge = jiagu.knowledge(text) self.lbl.text = pprint.pformat(knowledge)
def getKeywords_jiagu(data, topK): idList, titleList, abstractList = data['id'], data['title'], data[ 'abstract'] ids, titles, keys = [], [], [] for index in range(len(idList)): text = '%s。%s' % (titleList[index], abstractList[index]) # 拼接标题和摘要 print("\"", titleList[index], "\"", " 10 Keywords - Jiagu :") keywords = jiagu.keywords(text, topK) # 关键词 print(keywords) word_split = " ".join(keywords) print(word_split) #keys.append(word_split.encode("UTF-8")) keys.append(word_split) ids.append(idList[index]) titles.append(titleList[index]) # print(len(ids),len(titles),len(keys)) result = pd.DataFrame({ "id": ids, "title": titles, "key": keys }, columns=['id', 'title', 'key']) return result
import csv import jiagu with open('废弃物回收.csv', 'r', encoding='utf-8') as read: count = 1 text = csv.DictReader(read) for i in text: print(i) #print(type(i)) #print(i['发明机构']) keyword = jiagu.keywords(str(i['摘要']), 5) # 写入关键词 #print(keyword) with open('废弃物test.csv', 'a', newline='', encoding='utf-8') as wr: i['关键词'] = keyword header = ['序号', 'date', '类型', '名称', '链接', '发明机构', '摘要', '关键词'] r_csv = csv.DictWriter(wr, header) if count == 1: r_csv.writeheader() r_csv.writerow(i) wr.close() count += 1 if i == None: break
# jiagu.load_userdict('dict/user.dict') # 加载自定义字典,支持字典路径、字典列表形式。 jiagu.load_userdict(['思知机器人']) words = jiagu.seg(text) print(words) text = ''' 该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,“尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题,这个发现令人吃惊。” NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。” “MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动也作出了贡献。” NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。 据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。 ''' keywords = jiagu.keywords(text, 5) # 关键词抽取 print(keywords) summarize = jiagu.summarize(text, 3) # 文本摘要 print(summarize) # jiagu.findword('input.txt', 'output.txt') # 根据大规模语料,利用信息熵做新词发现。 # 知识图谱关系抽取 text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' knowledge = jiagu.knowledge(text) print(knowledge) # 情感分析 text = '很讨厌还是个懒鬼' sentiment = jiagu.sentiment(text)
# @Author: jason # @Email: [email protected] # @Time: 2021/4/20 12:21 # @Desc: import jiagu text = ''' 该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,“尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题,这个发现令人吃惊。” NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。” “MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动也作出了贡献。” NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。 据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。 ''' keywords = jiagu.keywords(text, 10) # 关键词 print(keywords) summarize = jiagu.summarize(text, 3) # 摘要 print(summarize) text = '哇哇哇王一博 赵丽颖这段跪求把花絮加到正片里啊啊啊啊啊这个戳腰要到我了呢[色][色][色] 追剧少女喵大仙的微博视频 ' sentiment = jiagu.sentiment(text) print(sentiment) docs = [ "五一放假去哪玩呢,去看电影吧", "愿你永远初心不忘,何需畏惧世俗眼光,愿你永远笑意张扬,何需担忧否定污蔑,愿你永远坚定锋芒,何需恐慌偏见斥难,愿你永远向上似阳,何需惶怕恶意风浪", "恭喜赵丽颖开启人生新篇章。What's past is prologue,凡此过往,皆为序章。赵丽颖,继续走吧,走向灯火通明、花团锦簇的未来", "深度学习实践:从零开始做电影评论文本情感分析", "朋友们关注一下姐的作品!",
import jiagu #jiagu.init() # 可手动初始化,也可以动态初始化 text = '携手推动民族复兴,实现和平统一目标;探索“两制”台湾方案,丰富和平统一实践;坚持一个中国原则,维护和平统一前景;深化两岸融合发展,夯实和平统一基础;实现同胞心灵契合,增进和平统一认同。在《告台湾同胞书》发表40周年纪念会上,习近平总书记提出的这五个方面重大政策主张,系统阐释了实现国家统一的目标内涵、基本方针、路径模式,深刻指明了今后一个时期对台工作的基本思路、重点任务和前进方向,既有坚定的原则性又有极强的针对性和极大的包容性,展现了非凡的政治勇气和政治智慧。' words = jiagu.seg(text) stop_words = ['的', ',', ';', '、'] words = [w for w in words if w not in stop_words] # 去除停用词,符号等 keywords = jiagu.keywords(words) # 关键词抽取 print(keywords)