HTML提取

从银行征信html中提取有价值的信息（姓名、身份证号、电话和城市）

ToDoList

自动生成xls表格文件(已完成，使用pyExcelerator模块)
代码重构
提取doc、pdf等多种格式文件中的信息
自动锁单

ChangeLog

version5:
- 自动生成xls表格文件
version1~version4:
- 完成基本功能；
- 增加将信息提取出文件的功能；
- 增加提取目录里所有文件夹所有文件的功能；
- 增加删除空白目录的功能；
- 增加将所有文件放到一个文件夹的功能
- 增加命令行模式

How to Use

安装有Python
- 将html.py文件复制到html文件的根目录里，运行即可
编译成exe
- 在当前目录，命令行运行 python setup.py py2exe。需要安装py2exe模块

##Result

运行结束后会产生一系列文件夹和文件，分别是：

分类结果文件夹：里面包含分类成功后文件，默认按照地级市分离，如果有命令行指令则按照命令行指令分离
未提取文件夹：包含所有不在分类结果里的文件
集合文件夹：将所有文件夹里的html文件移动到一起
result.txt文件：以逗号分隔，可以当成.csv文件导入，也可以直接导入，选择分隔符为,并设置每一列都是文本即可
result.xls文件：使用pyExcelerator自动生成的电子表格。

Note

软件将会忽视所有路径带有分类结果 未提取 集合 的文件。
只应用于html和htm文件
多次运行result.txt和result.xls是会被覆盖的，注意做好备份
集合内的文件是移动过去的，其他文件夹里的文件是复制过去的。
html文件应该是名字[-*]18位身份证号.htm[l]这种格式的

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
.gitignore		.gitignore
HTML.nsi		HTML.nsi
LICENSE		LICENSE
README.md		README.md
Setup.exe		Setup.exe
aifeidai.js		aifeidai.js
auto.py		auto.py
create_setup.nsi		create_setup.nsi
html.py		html.py
setup-auto.py		setup-auto.py
setup.py		setup.py
提取.exe		提取.exe

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

HTML.nsi

HTML.nsi

LICENSE

LICENSE

README.md

README.md

Setup.exe

Setup.exe

aifeidai.js

aifeidai.js

auto.py

auto.py

create_setup.nsi

create_setup.nsi

html.py

html.py

setup-auto.py

setup-auto.py

setup.py

setup.py

提取.exe

提取.exe

Repository files navigation

HTML提取

ToDoList

ChangeLog

How to Use

Note

Reference

About

Releases

Packages

Languages

License

luoyiqi/HTML--

Folders and files

Latest commit

History

Repository files navigation

HTML提取

ToDoList

ChangeLog

How to Use

Note

Reference

About

Resources

License

Stars

Watchers

Forks

Languages