- OS:windows(maybe Linux and mac)
- Python:v3.11+, not supported Python 2.X
- IDE and Project Encoding setting with UTF-8
- 多线程
multithreading - 支持使用代理设置
support proxy - 支持绑定键盘事件(快捷键),如暂停/启动程序运行
support bind keyboard events, e.g. pause or restart process - 支持从本地浏览器中读取cookies并携带访问限制的网站
read cookies from your local browser - 页面访问支持多种参数:
support multiple parameter for visit web- 支持常用请求方法:GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE
common request method: GET, POST, HEAD, PUT, DELETE, OPTIONS, TRACE - 可自定义添加request header
add customize request header - 可自定义添加Cookies
add customize cookies - 可设置链接超时、读取超时
set connection timeout and read timeout - 可设置是否自动跳转(http code 301、302、303、307、308)
set whether auto redirect(http code 301, 302, 303, 307, 308)
- 支持常用请求方法:GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE
- 安装Visual C++ 生成工具
访问微软官方Visual Studio下载页面
选择"用于 Visual Studio 的工具" - "Visual Studio 2022 生成工具"下载
运行下载的exe引导文件、开始安装Visual Studio Installer
Visual Studio Installer安装完毕后,勾选"桌面应用和移动应用"标签下的"使用C++的桌面开发"和"通用windows平台生成工具"并安装
- 安装swig,并将swig的安装路径加入系统变量中,否则会提示无法找到swig.exe
访问swig官网下载页面
选择swigwin-X.X.XX(版本号,如swigwin-4.1.1)下载,不要下载源码swig-X.X.XX(如swig-4.1.1)
解压下载的压缩文件到任意目录(如 D:\swig-4.1.1),并将该目录添加到系统环境变量中
- Ameblo (最后更新日期:2022/11/02)
- 哔哩哔哩 (最后更新日期:2023/07/07)
- 哔哩哔哩漫画 (最后更新日期:2022/11/02)
- Dailymotion (最后更新日期:2022/11/02)
- 动漫之家漫画 (最后更新日期:2023/08/28)
- 5sing (最后更新日期:2022/11/02)
- Flickr (最后更新日期:2022/11/02)
- 日向坂46公式Blog (最后更新日期:2022/11/02)
- Instagram (最后更新日期:2022/07/25)
- 欅坂46公式Blog (最后更新日期:2022/11/02)
- Lofter (最后更新日期:2022/11/02)
- 漫画柜漫画 (最后更新日期:2023/08/28)
- 美拍 (最后更新日期:2022/11/02)
- 755 (最后更新日期:2022/07/20)
- 乃木坂46公式Blog (最后更新日期:2022/11/02)
- 起点 (最后更新日期:2023/05/10)
- TikTok
- 图虫 (最后更新日期:2022/11/02)
- Tumblr (最后更新日期:2022/11/02)
- Twitter (最后更新日期:2022/07/20)
- 微博 (最后更新日期:2022/07/25)
- World Cosplay (最后更新日期:2022/07/25)
- 喜马拉雅FM (最后更新日期:2022/07/20)
- 一直播 (最后更新日期:2022/07/20)
- Youtube (最后更新日期:2022/12/15)
- /common,公共类
- /common/crawler.py 爬虫父类,多线程爬取父类,异常类
- /common/browser.py 浏览器,获取操作系统中安装的浏览器目录以及保存的cookies;模拟浏览器渲染效果
- /common/color_format.py 格式化输出内容
- /common/console.py 控制台输出,线程安全
- /common/const.py 常量
- /common/crypto.py 加密解密类,使用基于本计算机信息(MAC+计算机名)的私钥对隐私信息进行AES128加密(如输入的账号、密码)
- /common/file.py 用来处理文件读、写的常用方法,计算文件MD5值
- /common/keyboard_event.py 键盘监听事件,可以通过指定快捷键暂停/重启/立刻结束爬虫(默认在下一次网络请求时阻塞线程)
- /common/logger.py 日志,封装自logging
- /common/net.py 网络通信(基于urllib3),网页访问、资源下载等
- /common/net_config.py 网络通信配置类
- /common/path.py 用来处理操作系统路径相关的常用方法,创建/删除目录,移动/复制文件或文件夹等操作
- /common/port_listener_event.py 端口监听类,可以通过向指定端口发送请求暂停/重启/立刻结束爬虫(默认在下一次网络请求时阻塞线程)
- /common/tool.py 其他一些常用方法,如字符串截取,字符串和列表的转化等
- /common/url.py 用来处理URL的常用方法,如获取文件名,解析query参数等
- /common/log_config.json 日志类的配置文件
- /common/net_config.json 网络通信类的配置文件
- /common/crawler.py 爬虫父类,多线程爬取父类,异常类
- /install,项目依赖的一些扩展包的安装文件(使用pip install)
- /project,爬虫项目