Skip to content

autorealm/PyRailgun2

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

81 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python 网页爬虫工具 - PyRailgun2

本开源项目 Fork from pyrailgun 原作者是 princehaku 并使用 MIT 许可协议

新特性说明

  1. 增强的 strip 规则配置参数。

进行文本提取时可过滤 HTML 标签及自动换行。

  1. 新增加 match 规则配置参数。

用于进行 正则表达式 规则匹配,与 rule 替换使用。

  1. 新增加 extract 规则配置参数。

可进行 XPath 规则匹配,用于将相同节点存储于数组中,需要配合 rulematch 使用。

  1. 增强对重复节点分析功能。

对空值自动匹配,使分析得到的数组个数与重复节点数相等,可使用 ignore 参数取消。

  1. 更加友好的控制台输出提示。

方便查找错误信息。

  1. 可对抓取页面的连接进行控制。

防止网络连接或其他情况造成的某些页面抓取失败。

  1. 去除了 webkit 内核抓取支持及其他 BUG 修复。

精简除 requests / lxml / bs4 外,不需要其他依赖包。

使用方法

可参考根目录提供的两个样例 zhihubangumi ,分别是抓取 知乎番组计划 的脚本。

  1. 安装并配置 Python2.7 环境。
  2. 点击运行 zhihu.pybangumi.py

.. code-block:: python

from pyrailgun import RailGun

import sys, re, json

reload(sys)
sys.setdefaultencoding("utf-8")

railgun = RailGun()
railgun.setTask(file("xxx.json"))
railgun.fire()
nodes = railgun.getShells()

for id in nodes:
    node = nodes[id]
    ......

--

以下是源作者的 README:


NEED Python2.7

功能

安装

语法

例子

其他

  • python2.7 是必须的

  • _pages

更新

  • 0.25 fix 一个crash问题

  • 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持

About

简单实用高效的Python网页抓取模块

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%