此项目已发布至Github:
主要功能 可选择一个文件夹,自动读取文件夹中的所有.docx文件,并且生成一个文本重复度矩阵,用于两两对比 文件夹中文件的重复度
和一般仅仅使用TF-IDF模型进行文本重复度分析不同,本查重系统使用了TF-IDF加LSI双模型分析,有效 提高准确率
目前支持两种模式:文本模式 和 表格模式 文本模式用于扫描纯文本的.docx文件。可以有效的读取其中的文字并且分析重复度 表格模式用于扫描表格中的内容。 详情请点击“设置”按钮
为了可以更灵活地利用表格。本软件支持扫描表格的指定行和列,精确定位你需要查重的地方 由于本人技术力不够,现在暂时只支持扫描表格的x行x列的单个表格 未来可能会上线多表格多行多列扫描模式
不想再看黑漆漆的CMD了吧?使用tkinter制作的简易用户操作界面以及窗口化选择功能。让你不再 需要在CMD里手打路径
点击“导出到表格”按钮,选择保存位置,你就可以把你的查重结果完美导出到一个xls文件中
这一切都得怪jieba分词。这个包出现的一些神奇的bug导致它和pyinstaller水火不容。我曾试图修改 jieba的源码去进行修复,但似乎并没有什么用。
很遗憾的是python官方并没有可以直接读取.doc文件的包,毕竟有了基于xml的.docx,谁还想要.doc呢? 但是这并不难解决,只需要把doc转化一下就好。还有.txt就更轻松了。未来有可能会支持.txt和.doc文件
也许你要查重的文件散落在一个不同层级的文件夹中。但是其实并不用担心,因为支持多层文件夹应该很快 会上线。递归算法会很好地解决这个问题