金融文档智能分析算法说明文档

2019年6月13日

项目说明

本项目实现了智能文档分析，提供以下8个功能点

******* 功能点 ********
1.近义词词频统计              word_count
2.共现词发现                  concurrence_word_count
3.比较2篇文章新增词           newword_count
4.比较2篇文章相同词变化趋势   sameword_count
5.新词、短语发现功能          newword_found
6.差异化比较                  difference_count
7.查找关键词所在句子          find_sentences
8.生成文章关键词              generate_keywords

文件说明

doc_analysis:提供智能文档分析的8个功能点

API说明

1. 近义词词频统计

word_count(input_str,count_only_singleword=False,calculate_tfidf_pseg=False,keywords_list=None)

:param input_txt:输入文档
:param count_only_singleword:  TRUE： 统计单个词     False: 近义词群
:param calculate_tfidf_pseg:  返回结果 是否包含词性，TFIDF值
:param keywords_list: 关键词列表
:return:   1.calculate_tfidf_pseg=TRUE    ['keys', 'value','tfidf', 'tag','length', 'weights']    # weight= value* tfidf
2.calculate_tfidf_pseg=False    ['keys', 'value']

2.共现词发现

concurrence_word_count(input_txt,output_csv,threshold =4, write_csv=False,write_node_edge=False,keywords=None)

3.比较2篇文章新增词

 newword_count(compare_txt1,compare_txt2,output_csv)

:param compare_txt1: 分析文档
:param compare_txt2: 被比较文档
:param output_csv: 输出CSV路径
:return: dataframe       word value      关键词 出现次数

4.比较2篇文章相同词变化趋势

sameword_count(compare_txt1,compare_txt2,output_csv)

:param compare_txt1: 分析文档
:param compare_txt2: 被比较文档
:param output_csv: 输出CSV路径
:return: dataframe       word value1 value2 diff         关键词 出现次数1 出现次数2    差值

5.新词、短语发现功能

newword_found(input_str,mode='all',filter=True)

:param input_txt:分析文档 TXT格式
:param mode: 新词发现模式  all: 计算DOA,DOF，TFIDF,freq   part：只考虑TFIDF，freq
:param filter:
:return:

6.差异化比较

difference_count(compare_txt1,compare_txt2,output_csv,output_csv2,write_csv=False,count_concurrence_diff=False)

:param compare_txt1:被比较文章
:param compare_txt2:主要分析文章
:param output_csv: 输出路径
:param write_csv: 是否写入CSV文件
:return:

7.查找关键词所在句子

find_sentences(keywords_list, input_str, topn)

8.生成文章关键词

generate_keywords(input_txt, output_csv,write_csv=True)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea		.idea
__pycache__		__pycache__
data		data
lib		lib
README.md		README.md
__init__.py		__init__.py
doc_analysis.py		doc_analysis.py
excel_to_mysql.py		excel_to_mysql.py
simword_count.py		simword_count.py
termrecognition.py		termrecognition.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

pycache

pycache

data

data

lib

lib

README.md

README.md

init.py

init.py

doc_analysis.py

doc_analysis.py

excel_to_mysql.py

excel_to_mysql.py

simword_count.py

simword_count.py

termrecognition.py

termrecognition.py

utils.py

utils.py

Repository files navigation

金融文档智能分析算法说明文档

项目说明

文件说明

API说明

About

Releases

Packages

Languages

nianhang/doc-analysis

Folders and files

Latest commit

History

Repository files navigation

金融文档智能分析算法说明文档

项目说明

文件说明

API说明

About

Resources

Stars

Watchers

Forks

Languages