Skip to content

使用simhash算法,快速索引和查询大量文本简历

License

Notifications You must be signed in to change notification settings

eight-corner/simhashpy

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

simhashpy

使用simhash算法,快速索引和查询大量文本

输入: 文本 输出: 重复文本及其id

##职位描述数据 数据为mongo导出的bson格式, http://pan.baidu.com/s/1hqwHEBy 密码: im5v

##依赖包安装:

wget https://bootstrap.pypa.io/get-pip.py
python get_pip.py
pip install -r requirements.txt

###目录介绍

.
├── config  配置文件
├── data  数据模型
├── docs  文档
├── simhash
└── tests 单元测试,功能测试

About

使用simhash算法,快速索引和查询大量文本简历

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%