Min 全文检索引擎和自然语言处理;基于 jieba 分词,Redis实现。能实现快速的中文全文检索,并提供便捷的自然语言处理功能。包含全文检索,提取关键字,自动摘要,自动纠错等功能。
- 基于 redis 数据库,检索速度快。
- 关键字权重排序,搜索结果会根据关键字的权重进行排序,更人性化。
- 除了 jieba 分词外无其他依赖。
- 自动摘要能控制字数。这是很实用的功能。
- 代码精简,全部功能只有300+行代码。
链接 redis
min = Min("127.0.0.1",6379,0,'123456')
添加文档到索引 使用的时候需要传递文档的内容和文档的标记,如 ID 等能表示文档的唯一性的标记。
min.add_content("文档内容", 文档 ID)
如果要使用自然预处理功能需要引入 min_nlp.py 文件
提取关键字 需要传入文档内容,和要获取的关键字个数。默认20个
extract_tags("文档内容",20)
自动摘要 传递文档内容和需要控的字数
summarize("文档内容",100)
自动纠错 传入需要纠关键字
correction('刘牛华')