矩阵查重系统1.0

此项目已发布至Github:

主要功能 可选择一个文件夹，自动读取文件夹中的所有.docx文件，并且生成一个文本重复度矩阵，用于两两对比文件夹中文件的重复度

和一般仅仅使用TF-IDF模型进行文本重复度分析不同，本查重系统使用了TF-IDF加LSI双模型分析，有效提高准确率

功能与特性

目前支持两种模式：文本模式和表格模式 文本模式用于扫描纯文本的.docx文件。可以有效的读取其中的文字并且分析重复度表格模式用于扫描表格中的内容。详情请点击“设置”按钮

为了可以更灵活地利用表格。本软件支持扫描表格的指定行和列，精确定位你需要查重的地方由于本人技术力不够，现在暂时只支持扫描表格的x行x列的单个表格未来可能会上线多表格多行多列扫描模式

不想再看黑漆漆的CMD了吧？使用tkinter制作的简易用户操作界面以及窗口化选择功能。让你不再需要在CMD里手打路径

点击“导出到表格”按钮，选择保存位置，你就可以把你的查重结果完美导出到一个xls文件中

这一切都得怪jieba分词。这个包出现的一些神奇的bug导致它和pyinstaller水火不容。我曾试图修改 jieba的源码去进行修复，但似乎并没有什么用。

很遗憾的是python官方并没有可以直接读取.doc文件的包，毕竟有了基于xml的.docx，谁还想要.doc呢？但是这并不难解决，只需要把doc转化一下就好。还有.txt就更轻松了。未来有可能会支持.txt和.doc文件

也许你要查重的文件散落在一个不同层级的文件夹中。但是其实并不用担心，因为支持多层文件夹应该很快会上线。递归算法会很好地解决这个问题

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea		.idea
__pycache__		__pycache__
build/main		build/main
dist		dist
venv		venv
测试数据		测试数据
.gitattributes		.gitattributes
dict.txt		dict.txt
duplicateCheck.py		duplicateCheck.py
main.py		main.py
main.spec		main.spec
parameter.py		parameter.py
readme.md		readme.md
scan.py		scan.py
xiaoyang.py		xiaoyang.py