def nlp_jiagu(self, btn): text = str(self.lbl.text.strip()).replace("\n", "") if text[-2:] == "qg": sentiment = jiagu.sentiment(text[:-2]) self.lbl.text = pprint.pformat(sentiment) elif text[-2:] == "cq": keywords = jiagu.keywords(text, 5) # 关键词 self.lbl.text = pprint.pformat(keywords) elif text[-2:] == "jl": if "," in self.lbl.text: docs = self.lbl.text.split(",") else: docs = self.lbl.text.split(",") #print(docs) cluster = jiagu.text_cluster(docs) self.lbl.text = pprint.pformat(cluster) else: knowledge = jiagu.knowledge(text) self.lbl.text = pprint.pformat(knowledge)
据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。 ''' keywords = jiagu.keywords(text, 5) # 关键词抽取 print(keywords) summarize = jiagu.summarize(text, 3) # 文本摘要 print(summarize) # jiagu.findword('input.txt', 'output.txt') # 根据大规模语料,利用信息熵做新词发现。 # 知识图谱关系抽取 text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' knowledge = jiagu.knowledge(text) print(knowledge) # 情感分析 text = '很讨厌还是个懒鬼' sentiment = jiagu.sentiment(text) print(sentiment) # 文本聚类(需要调参) docs = [ "百度深度学习中文情感分析工具Senta试用及在线测试", "情感分析是自然语言处理里面一个热门话题", "AI Challenger 2018 文本挖掘类竞赛相关解决方案及代码汇总", "深度学习实践:从零开始做电影评论文本情感分析", "BERT相关论文、文章和代码资源汇总", "将不同长度的句子用BERT预训练模型编码,映射到一个固定长度的向量上", "自然语言处理工具包spaCy介绍", "现在可以快速测试一下spaCy的相关功能,我们以英文数据为例,spaCy目前主要支持英文和德文" ] cluster = jiagu.text_cluster(docs) print(cluster)