Skip to content

Wb-Alpha/FinalExam

Repository files navigation

此项目已发布至Github:

矩阵查重系统1.0

主要功能 可选择一个文件夹,自动读取文件夹中的所有.docx文件,并且生成一个文本重复度矩阵,用于两两对比 文件夹中文件的重复度

和一般仅仅使用TF-IDF模型进行文本重复度分析不同,本查重系统使用了TF-IDF加LSI双模型分析,有效 提高准确率

功能与特性

支持多种模式!

目前支持两种模式:文本模式 和 表格模式 文本模式用于扫描纯文本的.docx文件。可以有效的读取其中的文字并且分析重复度 表格模式用于扫描表格中的内容。 详情请点击“设置”按钮

自定义你的表格搜索

为了可以更灵活地利用表格。本软件支持扫描表格的指定行和列,精确定位你需要查重的地方 由于本人技术力不够,现在暂时只支持扫描表格的x行x列的单个表格 未来可能会上线多表格多行多列扫描模式

YES!GUI!

不想再看黑漆漆的CMD了吧?使用tkinter制作的简易用户操作界面以及窗口化选择功能。让你不再 需要在CMD里手打路径

想要保存?一键导出到表格

点击“导出到表格”按钮,选择保存位置,你就可以把你的查重结果完美导出到一个xls文件中

暂未实现的功能

打包,打包,打包!

这一切都得怪jieba分词。这个包出现的一些神奇的bug导致它和pyinstaller水火不容。我曾试图修改 jieba的源码去进行修复,但似乎并没有什么用。

那些来自.doc时代的古代人怎么办

很遗憾的是python官方并没有可以直接读取.doc文件的包,毕竟有了基于xml的.docx,谁还想要.doc呢? 但是这并不难解决,只需要把doc转化一下就好。还有.txt就更轻松了。未来有可能会支持.txt和.doc文件

多层文件夹怎么办

也许你要查重的文件散落在一个不同层级的文件夹中。但是其实并不用担心,因为支持多层文件夹应该很快 会上线。递归算法会很好地解决这个问题

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published