def keywords():
    f = open(path + '政府的救助措施.txt',
             encoding='gbk')  # 疫情传播、疫情防控、疫情救治、疫情对经济的影响、政府的救助措施
    text = f.read()
    n = 10  # keywords_nums

    # SnowNLP
    s = SnowNLP(text)
    print(s.keywords(n))
    # jiagu
    keywords = jiagu.keywords(text, n)  # 关键词
    print(keywords)
Ejemplo n.º 2
0
    def test_keywords(self):
        text = '''
        该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,
        “尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程
        贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的
        问题,这个发现令人吃惊。”
        NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一
        长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,
        植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。”
        “MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动
        也作出了贡献。”
        NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林
        工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。
        据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育
        830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程
        完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江
        流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。
        '''

        keywords = jiagu.keywords(text, 5)  # 关键词
        self.assertTrue(len(keywords) == 5)
Ejemplo n.º 3
0
    def nlp_jiagu(self, btn):

        text = str(self.lbl.text.strip()).replace("\n", "")
        if text[-2:] == "qg":
            sentiment = jiagu.sentiment(text[:-2])
            self.lbl.text = pprint.pformat(sentiment)
        elif text[-2:] == "cq":
            keywords = jiagu.keywords(text, 5)  # 关键词
            self.lbl.text = pprint.pformat(keywords)
        elif text[-2:] == "jl":
            if "," in self.lbl.text:

                docs = self.lbl.text.split(",")
            else:
                docs = self.lbl.text.split(",")
            #print(docs)
            cluster = jiagu.text_cluster(docs)
            self.lbl.text = pprint.pformat(cluster)

        else:
            knowledge = jiagu.knowledge(text)
            self.lbl.text = pprint.pformat(knowledge)
Ejemplo n.º 4
0
def getKeywords_jiagu(data, topK):
    idList, titleList, abstractList = data['id'], data['title'], data[
        'abstract']
    ids, titles, keys = [], [], []
    for index in range(len(idList)):
        text = '%s。%s' % (titleList[index], abstractList[index])  # 拼接标题和摘要
        print("\"", titleList[index], "\"", " 10 Keywords - Jiagu :")
        keywords = jiagu.keywords(text, topK)  # 关键词
        print(keywords)
        word_split = " ".join(keywords)
        print(word_split)
        #keys.append(word_split.encode("UTF-8"))
        keys.append(word_split)
        ids.append(idList[index])
        titles.append(titleList[index])
        # print(len(ids),len(titles),len(keys))
    result = pd.DataFrame({
        "id": ids,
        "title": titles,
        "key": keys
    },
                          columns=['id', 'title', 'key'])
    return result
Ejemplo n.º 5
0
import csv

import jiagu

with open('废弃物回收.csv', 'r', encoding='utf-8') as read:
    count = 1
    text = csv.DictReader(read)
    for i in text:
        print(i)
        #print(type(i))
        #print(i['发明机构'])
        keyword = jiagu.keywords(str(i['摘要']), 5)
        # 写入关键词
        #print(keyword)
        with open('废弃物test.csv', 'a', newline='', encoding='utf-8') as wr:
            i['关键词'] = keyword
            header = ['序号', 'date', '类型', '名称', '链接', '发明机构', '摘要', '关键词']
            r_csv = csv.DictWriter(wr, header)
            if count == 1:
                r_csv.writeheader()
            r_csv.writerow(i)
            wr.close()
        count += 1
        if i == None:
            break
Ejemplo n.º 6
0
# jiagu.load_userdict('dict/user.dict') # 加载自定义字典,支持字典路径、字典列表形式。
jiagu.load_userdict(['思知机器人'])

words = jiagu.seg(text)
print(words)

text = '''
该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,“尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题,这个发现令人吃惊。”
NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。”
“MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动也作出了贡献。”
NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。
据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。
'''

keywords = jiagu.keywords(text, 5)  # 关键词抽取
print(keywords)

summarize = jiagu.summarize(text, 3)  # 文本摘要
print(summarize)

# jiagu.findword('input.txt', 'output.txt') # 根据大规模语料,利用信息熵做新词发现。

# 知识图谱关系抽取
text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
knowledge = jiagu.knowledge(text)
print(knowledge)

# 情感分析
text = '很讨厌还是个懒鬼'
sentiment = jiagu.sentiment(text)
Ejemplo n.º 7
0
# @Author: jason
# @Email: [email protected]
# @Time: 2021/4/20 12:21
# @Desc:

import jiagu

text = '''
该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,“尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题,这个发现令人吃惊。”
NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。”
“MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动也作出了贡献。”
NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。
据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。
'''

keywords = jiagu.keywords(text, 10) # 关键词
print(keywords)

summarize = jiagu.summarize(text, 3) # 摘要
print(summarize)

text = '哇哇哇王一博 赵丽颖这段跪求把花絮加到正片里啊啊啊啊啊这个戳腰要到我了呢[色][色][色] 追剧少女喵大仙的微博视频  '
sentiment = jiagu.sentiment(text)
print(sentiment)

docs = [
        "五一放假去哪玩呢,去看电影吧",
        "愿你永远初心不忘,何需畏惧世俗眼光,愿你永远笑意张扬,何需担忧否定污蔑,愿你永远坚定锋芒,何需恐慌偏见斥难,愿你永远向上似阳,何需惶怕恶意风浪",
        "恭喜赵丽颖开启人生新篇章。What's past is prologue,凡此过往,皆为序章。赵丽颖,继续走吧,走向灯火通明、花团锦簇的未来",
        "深度学习实践:从零开始做电影评论文本情感分析",
        "朋友们关注一下姐的作品!",
Ejemplo n.º 8
0
import jiagu

#jiagu.init() # 可手动初始化,也可以动态初始化

text = '携手推动民族复兴,实现和平统一目标;探索“两制”台湾方案,丰富和平统一实践;坚持一个中国原则,维护和平统一前景;深化两岸融合发展,夯实和平统一基础;实现同胞心灵契合,增进和平统一认同。在《告台湾同胞书》发表40周年纪念会上,习近平总书记提出的这五个方面重大政策主张,系统阐释了实现国家统一的目标内涵、基本方针、路径模式,深刻指明了今后一个时期对台工作的基本思路、重点任务和前进方向,既有坚定的原则性又有极强的针对性和极大的包容性,展现了非凡的政治勇气和政治智慧。'
words = jiagu.seg(text)

stop_words = ['的', ',', ';', '、']
words = [w for w in words if w not in stop_words] # 去除停用词,符号等

keywords = jiagu.keywords(words) # 关键词抽取

print(keywords)