GitHub - dhwang99/tool_library: 常用的小程序。如python,shell, 分词等。是一个大杂汇，方便查找

平时用到的一些工具、库等等集合。是一个大杂汇。叫 toolbox更合适一些

包括shell，python，分词，上传文件，自动登陆，远程同步等等小工具集, 也有python爬虫、抽取、同步数据等小程序

也包括一些hadoop,sparksql,查看gpu等相关的程序

1. shell

remote_ctrl

一个登陆远程机器、在远程机器批执行命令、上传/下载数据、发布程序的脚本.

transfer

经中转给目标机器同步数据的程序。实际上用代理应该更好(squid支持http/https/ssh/rsync等)

testadsl

用nmap扫描端口，找内部adsl代理的程序。并对发现结果进行了试用

getopts.sh

脚本实现的 switch, 让交互更方便一些

data_recover.sh

用dd来恢复已删除的文件。对代码恢复有用。建议代码加上头，这样比较好找

2. python

extract_by_re

   通过正则进行抽取的小脚本。用来抽sina, 学习用, 不商用

extract_by_xpath

   通过 xpath进行抽取。 抽取几个知识类的网站，学习用

log_parse

   用来解析日志的小程序。附加了些统计的功能

multi_search.py

  多模匹配 + 多进程, 可以用来发现敏感词（不足：字符串匹配，未分词）

produce_consumer_for_senddata.py

   为推送服务写的生产者、消费者model

push_data_by_httppost

   通过http接口，提交post前的客户端和服务端程序。其中服务器端程序用php写的

seg_test.py

   jieba分词的小示例

tcp_client.py

   tcp客户示例

urlparse

   解析url的程序

vr_data

  一个离线、在线入redis的计算小程序。包括一些匹配计算、入redis、http代理访问等功能

zhihu_download.py

  广度遍历爬取zhihu的小程序。其中的cookie用的是自己的。也是学习用

simhash.py

 算simhash的小程序

3. Hadoop相关的脚本

用hadoop下的hdfs存储、mapreduce进行计算。会存一些例程序

4. sparksql相关的脚本

用spark sql做数据统计。

5. gpu相关的脚本

17年4月开始使用gpu, 工具不多，仅为留档用

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

gpu

gpu

hadoop

hadoop

python

python

shell

shell

README.md

README.md

Repository files navigation

1. shell

2. python

3. Hadoop相关的脚本

4. sparksql相关的脚本

5. gpu相关的脚本

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
gpu		gpu
hadoop		hadoop
python		python
shell		shell
README.md		README.md

dhwang99/tool_library

Folders and files

Latest commit

History

Repository files navigation

1. shell

2. python

3. Hadoop相关的脚本

4. sparksql相关的脚本

5. gpu相关的脚本

About

Resources

Stars

Watchers

Forks

Languages