Example #1
0
    def text2record(self, text: str, kw_num: int = 7) -> Record:
        """
            1. text to structure information
            2. convert to Record
        Args:
            text:
            kw_num
        Returns: List[Record]
            Record
        """

        # _text = self.text_help.base_bert_clear(str(text)[:256])
        _text = self.text_help.base_bert_clear(
            str(text))[:256]  # return text after clearing
        try:
            _text = ','.join(jiagu.summarize(text, 2))
        except Exception as e:
            _text = ''.join(jiagu.summarize(text, 1))
        text_vec = np.zeros(self.word_vec_dim)
        _text = self.lac.run([_text])[0]
        # [(word, pos, weight), ()]
        _text = [(
            _text[0][i],
            _text[1][i],
            self.key_pos_w[v],
        ) for i, v in enumerate(_text[-1]) if v in self.key_pos_w]
        _text = self.key_pos_w_deduplication(_text)[:kw_num]
        _flag = False
        word_num = 0
        if len(_text) > 0:
            for item in _text:
                try:
                    word_vec = self.w2v_model.word_vec(item[0]) * np.array(
                        item[2])
                    text_vec += word_vec
                    _flag = True
                    word_num += 1
                except Exception as e:
                    # logger.debug(e)
                    pass
        if _flag:
            text_vec /= word_num
            return Record(text=text,
                          vec=text_vec,
                          keyword=[(item[0], item[1]) for item in _text])
        else:
            return Record(text=text, vec=None, keyword=None)
Example #2
0
 def test_short_text_summarize(self):
     text = '''江西省上饶市信州区人民法院 刑事判决书 (2016)赣1102刑初274号 公诉机关
     上饶市信州区人民检察院。 被告人曾榴仙,女,1954年11月22日出生于江西省上饶市信州区,
     汉族,文盲,无业,家住上饶市信州区,因涉嫌过失致人死亡罪,2016年4月27日被上饶市公
     安局信州区分局刑事拘留,2016年6月1日被执行逮捕。辩护人毛巧云,江西盛义律师事务所
     律师。 上饶市信州区人民检察院以饶信检公诉刑诉[2016]260号起诉书指控被告人曾榴仙犯
     过失致人死亡罪,于2016年8月22日向本院提起公诉。'''
     text = re.sub('\\n| ', '', text)
     summarize = jiagu.summarize(text, 5)  # 设定摘要句子数大于文本句子数
     print(summarize)
     print(len(summarize))
Example #3
0
words = jiagu.seg(text)
print(words)

text = '''
该研究主持者之一、波士顿大学地球与环境科学系博士陈池(音)表示,“尽管中国和印度国土面积仅占全球陆地的9%,但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题,这个发现令人吃惊。”
NASA埃姆斯研究中心的科学家拉玛·内曼尼(Rama Nemani)说,“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为,植被增加是由于更多二氧化碳排放,导致气候更加温暖、潮湿,适宜生长。”
“MODIS的数据让我们能在非常小的尺度上理解这一现象,我们发现人类活动也作出了贡献。”
NASA文章介绍,在中国为全球绿化进程做出的贡献中,有42%来源于植树造林工程,对于减少土壤侵蚀、空气污染与气候变化发挥了作用。
据观察者网过往报道,2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中,天然林资源保护工程完成造林26万公顷,退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。
'''

keywords = jiagu.keywords(text, 5)  # 关键词抽取
print(keywords)

summarize = jiagu.summarize(text, 3)  # 文本摘要
print(summarize)

# jiagu.findword('input.txt', 'output.txt') # 根据大规模语料,利用信息熵做新词发现。

# 知识图谱关系抽取
text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
knowledge = jiagu.knowledge(text)
print(knowledge)

# 情感分析
text = '很讨厌还是个懒鬼'
sentiment = jiagu.sentiment(text)
print(sentiment)

# 文本聚类(需要调参)
Example #4
0
def summary_jiagu(rec):
    text = rec['article']
    try:
        return ''.join(jiagu.summarize(text, 1))
    except Exception as e:
        return text
Example #5
0
 def test_summarize(self):
     text = ''''江西省上饶市信州区人民法院 刑事判决书 (2016)赣1102刑初274号 公诉机关
     上饶市信州区人民检察院。 被告人曾榴仙,女,1954年11月22日出生于江西省上饶市信州区,
     汉族,文盲,无业,家住上饶市信州区,因涉嫌过失致人死亡罪,2016年4月27日被上饶市公
     安局信州区分局刑事拘留,2016年6月1日被执行逮捕。 辩护人毛巧云,江西盛义律师事务所
     律师。 上饶市信州区人民检察院以饶信检公诉刑诉[2016]260号起诉书指控被告人曾榴仙犯
     过失致人死亡罪,于2016年8月22日向本院提起公诉。本院依法组成合议庭,公开开庭审理了
     本案。上饶市信州区人民检察院指派检察员苏雪莉出庭支持公诉,被告人曾榴仙及辩护人毛巧云,
     到庭参加诉讼。现已审理终结。 公诉机关指控: 被告人曾榴仙与被害人祝某两家系位于信州区
     沙溪镇向阳村柘阳的多年邻居,被害人祝某有多年心脏病史,被告人曾榴仙对此事明知。
     2016年4月27日7时许,被告人曾榴仙的丈夫徐某1在修理两家相邻路埂时因权属问题遭到对方阻拦,
     被告人曾榴仙和其丈夫徐某1分别与被害人祝某及其丈夫徐某2发生争吵、拉扯,被告人曾榴仙与
     被害人祝某拉扯至祝某家的厕所边,后被害人祝某心脏病发作倒地,在送往医院途中死亡。
     经江西上饶司法鉴定中心鉴定,被害人祝某额部及全身多处皮肤因外力作用致软组织挫擦伤,
     生前患有心肌肥大,心瓣膜病等器质性疾病导致心源性猝死是主因,本次与他人发生争吵、
     拉扯系导致心源性猝死的诱因。 2016年4月27日,被告人曾榴仙得知祝某死亡的消息后,
     在其丈夫徐某1的陪同下到沙溪派出所投案自首。 被告人曾榴仙对起诉书指控的犯罪事实不持异议。
      辩护人毛巧云提出辩护意见,其对起诉书指控的犯罪事实不持异议,但认为本案系意外事件。
      理由如下:1、被告人曾榴仙是否知道祝某有心脏病;2、被告人曾榴仙即便是知道祝某有心脏病,
      这一明知并不能等同于对死亡结果有预见。同时认为被告人曾榴仙具有如下量刑情节:
      1、自首;2、当庭认罪;3、一贯表现良好;4、有悔罪表现。 经审理查明: 
      被告人曾榴仙与被害人祝某两家系位于信州区沙溪镇向阳村柘阳的多年邻居,被害人祝某有多年
      心脏病史,被告人曾榴仙对此事明知。2016年4月27日7时许,被告人曾榴仙的丈夫徐某1在修理
      两家相邻路埂时因权属问题遭到对方阻拦,被告人曾榴仙和其丈夫徐某1分别与被害人祝某及其
      丈夫徐某2发生争吵、拉扯,被告人曾榴仙与被害人祝某拉扯至祝某家的厕所边,后被害人
      祝某心脏病发作倒地,在送往医院途中死亡。经江西上饶司法鉴定中心鉴定,被害人祝某额
      部及全身多处皮肤因外力作用致软组织挫擦伤,生前患有心肌肥大,心瓣膜病等器质性疾病
      导致心源性猝死是主因,本次与他人发生争吵、拉扯系导致心源性猝死的诱因。 
      2016年4月27日,被告人曾榴仙得知祝某死亡的消息后,在其丈夫徐某1的陪同下
      到沙溪派出所投案自首。 本案在审理过程中,被告人曾榴仙家属赔偿了被害人祝某家属的损失,
      并取得了谅解。 上述事实,被告人曾榴仙在开庭审理过程中亦无异议,且有被告人曾榴仙的
      常住人口信息,归案情况说明,证人徐某1、冯某、徐某3、徐某2、黄某、郑某的证言,
      被告曾榴仙的供述及辨认笔录,鉴定意见,现场勘查笔录等证据证实,足以认定。 本院认为,
      被告人曾榴仙明知被害人祝某有心脏病,应当预见其行为可能导致祝某病发死亡的后果,
      因轻信能够避免而与被害人祝某发生争吵和拉扯,导致被害人病发死亡。其行为已触犯刑法,
      构成过失致人死亡罪。公诉机关指控的罪名成立,本院予以支持。辩护人毛巧云辩称该案系意外
      事件的意见本院不予支持。案发后,被告人曾榴仙主动到公安机关投案,并如实供述自己的罪行,
      系自首,依法具备可以从轻或减轻处罚情节;被告人曾榴仙家属赔偿了被害人祝某家属的损失,
      并取得了谅解,被告人曾榴仙具备酌情从轻处罚情节。本案系因邻里纠纷矛盾激化引发,被告人
      曾榴仙具备酌情从轻处罚情节。依照《中华人民共和国刑法》第二百三十三条、
      第六十七条第一款、第七十二条第一款、第七十三条第二款、第三款的规定,
      判决如下: 被告人曾榴仙犯过失致人死亡罪,判处有期徒刑一年,缓刑一年。 
      (缓刑考验期限,从判决确定之日起计算) 如不服本判决,可在接到判决书的第二日起十日内,
      通过本院或者直接向江西省上饶市中级人民法院提出上诉。书面上诉的,
      应当提交上诉状正本一份,副本二份。 审判长程明 人民陪审员钱进 人民陪审员郑艳 
      二〇一六年十一月十四日 书记员郭建锋 " value="江西省上饶市信州区人民法院 
      刑事判决书 (2016)赣1102刑初274号 公诉机关上饶市信州区人民检察院。 
      被告人曾榴仙,女,1954年11月22日出生于江西省上饶市信州区,汉族,文盲,无业,
      家住上饶市信州区,因涉嫌过失致人死亡罪,2016年4月27日被上饶市公安局信州区分局刑事
      拘留,2016年6月1日被执行逮捕。 辩护人毛巧云,江西盛义律师事务所律师。 
      上饶市信州区人民检察院以饶信检公诉刑诉[2016]260号起诉书指控被告人
      曾榴仙犯过失致人死亡罪,于2016年8月22日向本院提起公诉。本院依法组成合议庭,
      公开开庭审理了本案。上饶市信州区人民检察院指派检察员苏雪莉出庭支持公诉,
      被告人曾榴仙及辩护人毛巧云,到庭参加诉讼。现已审理终结。 公诉机关指控: 
      被告人曾榴仙与被害人祝某两家系位于信州区沙溪镇向阳村柘阳的多年邻居,
      被害人祝某有多年心脏病史,被告人曾榴仙对此事明知。
      2016年4月27日7时许,被告人曾榴仙的丈夫徐某1在修理两家相邻路埂时因权属问题遭到
      对方阻拦,被告人曾榴仙和其丈夫徐某1分别与被害人祝某及其丈夫徐某2发生争吵、拉扯,
      被告人曾榴仙与被害人祝某拉扯至祝某家的厕所边,后被害人祝某心脏病发作倒地,
      在送往医院途中死亡。经江西上饶司法鉴定中心鉴定,被害人祝某额部及全身多处皮肤因外力
      作用致软组织挫擦伤,生前患有心肌肥大,心瓣膜病等器质性疾病导致心源性猝死是主因,
      本次与他人发生争吵、拉扯系导致心源性猝死的诱因。 2016年4月27日,被告人曾榴仙得
      知祝某死亡的消息后,在其丈夫徐某1的陪同下到沙溪派出所投案自首。 被告人曾榴仙对
      起诉书指控的犯罪事实不持异议。 辩护人毛巧云提出辩护意见,其对起诉书指控的犯罪事
      实不持异议,但认为本案系意外事件。理由如下:1、被告人曾榴仙是否知道祝某有心脏病;
      2、被告人曾榴仙即便是知道祝某有心脏病,这一明知并不能等同于对死亡结果有预见。
      同时认为被告人曾榴仙具有如下量刑情节:1、自首;2、当庭认罪;3、一贯表现良好;
      4、有悔罪表现。 经审理查明: 被告人曾榴仙与被害人祝某两家系位于信州区沙溪镇向阳村
      柘阳的多年邻居,被害人祝某有多年心脏病史,被告人曾榴仙对此事明知。'''
     text = re.sub('\\n| ', '', text)
     summarize = jiagu.summarize(text, 3)  # 摘要
     print(summarize)
     self.assertTrue(len(summarize) == 3)
Example #6
0

if not news.empty:
    #title 昨日
    title = 'CCTV新闻联播摘要{date}'.format(date=today_str)
    fname = 'xwlb{date}'.format(date=today_str)

    #已更新,退出
    if os.path.exists(dest+fname+'.md'):
        sys.exit(0)

    #content
    import jiagu
    import jieba.analyse
    text = ''.join(news.iloc[:,2].to_list())
    content = '\n\n'.join(jiagu.summarize(text, 10))

    # keywords
    text = ''.join(news.iloc[:,2].to_list())
    #text_keywords = jiagu.keywords(text, 5) # 关键词
    #text_keywords = [x for x in text_keywords if len(x)>=2]
    text_keywords = jieba.analyse.extract_tags(text, topK=3, allowPOS=['n']) # 关键词

    # extend the keywords
    eco_keywords = []
    for k in KEYS:
        if k in content:
            eco_keywords.append(k)

    # 高亮显示关键字,需要hugo默认打开支持html,参考config.yaml
    for k in text_keywords:
Example #7
0
import jiagu

text = '姚明(Yao Ming),1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
text='北京故宫是中国明清两代的皇家宫殿,旧称为紫禁城,位于北京中轴线的中心,是中国古代宫廷建筑之精华。北京故宫以三大殿为中心,占地面积72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,房屋九千余间。是世界上现存规模最大、保存最为完整的木质结构古建筑之一。'

knowledge = jiagu.knowledge(text)
print(knowledge)
print(jiagu.summarize(text,1))
c=jiagu.cut('前德国国防军军官')
print(c)
Example #8
0
# -*- coding: utf-8 -*-
from __future__ import absolute_import, division, print_function, unicode_literals

import jiagu
import pandas as pd
from tqdm import tqdm

test_df = pd.read_csv(r'D:\data\61\data\test.csv')

texts = test_df['article'].values
res = []

for text in tqdm(texts):
    text = text.replace('<Paragraph>', ' ')
    summarize = jiagu.summarize(text, 1)
    print(summarize)
    res.append(summarize[0])

sub = pd.DataFrame()
sub['sum'] = res
sub.head()

sub.to_csv('sub_jiagu.csv', header=False)

# fin = open('input.txt', 'r')
# text = fin.read()
# fin.close()
# if __name__ == '__main__':
#     text = '(临湘“12·10”强奸杀人案嫌犯一审被判死刑)红网临湘8月21日讯(通讯员 彭勇 胡莎)8月21日上午10点15分,由临湘市人民检察院起诉的湖南临湘“12·10”强奸杀人案的嫌犯邓某,被临湘市人民法院判处死刑,剥夺政治权利终身。邓某,男,1990年9月5日出生于湖南省临湘市,租住在该市饲料公司院内,在五里牌某发廊工作。近两年,因失恋、经商亏损等原因让他产生以强奸、杀人等极端方式报复社会的想法。2014年12月10日晚上9点左右,邓某携带胶带、美工刀等作案工具,在临湘市城区寻找作案目标。在临湘市五中门口,他发现了晚自习后回家的刘小美(化名,本案被害人,女,在校高中学生,殁年16岁)。邓某尾随小美回家,至一条偏僻小路时,乘其不备,用右手勒住她脖子,迅速将她拖至旁边的菜地其掐至昏迷,对她实施了两次强奸行为。事后逃离时,他发现小美尚有气息,又用双手用力掐住其颈部直至其死亡后,再次逃离了作案现场。2014年12月17日,邓某被公安机关在其租住房中抓获。临湘市人民检察院提前介入该案,并全程参与犯罪嫌疑人对犯罪现场及作案过程的指认。审讯过程中,邓某还交代了其曾犯盗窃罪,并在2013年曾强奸杀人的事实。原来,2013年8月10日晚上10点左右,已经产生报复社会想法的邓某携带作案工具绳索,骑自行车在临湘市城区寻找作案目标,发现赵月(化名,本案被害人,女,在校大学生,殁年20岁)独自一人在长安三桥附近的河边路上行走。邓某见周围人烟稀少,于是尾随其后,用右手勒住其脖子将其拖至路边将其掐死。在确认赵月死亡后,对尸体实施了奸淫,并将她包内50多元现金偷走,其他身份证等物品丢弃至长安河中。为防止被人发现,邓某用事先准备的绳索将路边的水泥块绑在尸体上,将尸体抛入长安河中,再逃离了作案现场。'
#
#     summarize = jiagu.summarize(text, 5)  # 摘要