Skip to content

使用python3爬虫下载晋江小说(可下载VIP章节,反爬虫处理测试版)

Notifications You must be signed in to change notification settings

113000/jjwxcNovelCrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

此项目仅供学习交流使用,严禁用于商业用途,请在24小时之内删除。

众筹晋江反爬虫字体文件和对照表,详见issues和“反爬虫对照表”文件夹

Android系统建议使用静读天下专业版阅读(将jjwxcfont里的ttf文件复制到静读天下显示的字体文件夹中),Windows系统建议使用浏览器的EPUBReader插件,谷歌和edge浏览器都可以安装。

若文章无法下载,可以在issues里把网址发给我。若只有某一章显示乱码,先看看fonts文件夹里有没有多出来一个不在字体列表中的文件,将文件名发给我。

常见问题见wiki

感谢lyc8503提供的处理反爬虫思路

使用说明

如果不想配置环境,可以直接下载EXE:exe程序下载,如果直接下载太慢,可以通过这个网站下载

环境配置

注:我写的这个程序可以在Windows10 x64系统下运行成功,其他环境可自行调整。

 1、安装python环境

建议安装python3.7的环境。安装教程:https://blog.csdn.net/weixin_40844416/article/details/80889165

 2、安装第三方库

联网,使用管理员模式打开命令提示符(cmd),依次输入以下命令、按回车键运行

(如果下载慢,可以用pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ 代替pip install

  • pip install requests
  • pip install fonttools
  • pip install lxml
  • pip install selenium(用于Chrome浏览器)
  • pip install opencc-python-reimplemented
 3、(可跳过)安装chormedriver

若要使用client.py获取cookie,必须执行步骤3

该程序使用Chrome87,请在以下网址安装对应的chormedriver:https://chromedriver.chromium.org/downloads

以管理员身份打开cmd,输入where python,找到python路径,将chormedriver放到python.exe所在路径下

程序使用

1、若下载非VIP章节,直接下载main_txt.py或“epub下载”文件夹中全部文件,双击运行。主要更新epub格式下载的程序,因为我发现epub文件大小居然比txt小,读起来也方便。

  (注:main_txt.py可将小说保存为txt格式,main_epub.py可将小说保存为epub格式,EPUB.py存放epub打包方法)

2、运行文件后输入小说主页网址。(例如:“http://www.jjwxc.net/onebook.php?novelid=2710871”

3、若下载VIP章节,登陆晋江(建议使用edge浏览器或IE浏览器),右键点击“检查”,或按F12进入开发者模式,点击console(控制台)按钮,输入document.cookie   ,按回车,按照代码注释复制到main_txt.py|main_epub.py文件header中的指定位置

或者直接下载并打开client.py,按步骤输入用户名密码,将得到的值(包括大括号)赋给main_txt.py|main_epub.py的headerss

  (注:cookie若失效,请及时更换,如果换了还不行,就使用Chrome87或其他浏览器获取cookie,如果还不行,删除"timeOffset_o=任意字符串;")

保存main_txt.py|main_epub.py,运行文件

繁简转换功能:输入编号后,若不转换,直接按回车,若繁转简,输入s后按回车,若简转繁,输入t后按回车。

若epub文件有问题,可以用epub编辑工具修复一下,本人建议使用sigil或calibre,这两个软件在GitHub上都有。

main_epub日志记录

2021-1-23

  • 新增乱码替换功能,对照表已全部完成,感谢starcrys,持续众筹新字体,详见issues
  • 2021-1-21

    • 新增乱码替换功能(需要对照表,对照表仅完成部分,详见issues)
    • 修正无法创建Fonts文件夹的bug。

    2021-1-19

    • 优化反爬虫处理方案,增添“只需联网、无需下载字体文件”的选择。

    2021-1-18

    • 对反爬虫进行处理

    2020-11-20

    • 修改程序无法处理目录、卷标特效的bug
    • 修改程序无法获取部分网站图源的bug(需科学上网)

    2020-9-21

    • 调整下载文件和EPUB生成文件,使其匹配
    • 修改EPUB2生成格式,可自由选择生成的epub文件格式
    • 新增文案特效版下载,可以显示文案特效

    2020-3-23

    • 使用多线程下载章节(python的多线程好像不怎么给力)
    • 优化封面保存功能
    • 文件保存格式从epub2改为epub3
    • 优化目录保存方式
    • 替换不安全符号

    2020-2-14

    • 修复文案审核期间无法下载的bug
    • 将epub打包功能单独拆分到EPUB.py文件中

    2020-01-05

    • 优化繁简转换方式
    • 优化内容简介和标题不匹配的bug

    2019-12-20

    2019-12-19

    • 优化封面后存在乱码的bug
    • 优化内容简介和标题不匹配的bug
    • 新增繁转简转换功能(若不需要此功能,将含有OpenCC('t2s').convert的所有行删除)

    初始功能:

    • 添加封面(若不需要,将包含"C.xhtml"和"p.jpg"的所有行删除)
    • 添加两级目录(若不需要添加目录,删除"create_tox"函数)
    • 通过cookie下载已购买VIP章节

About

使用python3爬虫下载晋江小说(可下载VIP章节,反爬虫处理测试版)

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Python 100.0%