コード例 #1
0
ファイル: 123456hd.py プロジェクト: qsdj/Python
    #类似网址入口正则(精确要进入采集的网址)
    'link_tezheng': [
        '/\d{1,5}_\d{1,5}____datetime_\.html',
        '/\d{1,5}_\d{1.5}____datetime_\.html'
    ],
    #目标网址正则
    'mb_url_reg':
    '<a[^><\n]*?href=["|\']?(/detail/\?\d{1,10}\.html)["|\']?[^><\n]*?>.*?</a>',
    #目标内容正则
    'mb_con_reg':
    'layout_fbox.*?影片名称.*?<strong>(.*?)</strong>.*?第1集.*?href\="(.*?)".*?</li>',
    #内容正则中的分组对应的字段信息
    'field': {
        'title': 1,
        'moviebt': 2
    },
    #采集到的内容字段sql语句
    'content_sql':
    '''\
              `title` varchar(255) DEFAULT NULL,
              `moviebt` varchar(255) DEFAULT NULL,''',
    'charset':
    'gbk',
}]

for i in cjurl:
    spi = urlspider(i)
    spi.isproxy = True
    spi.run()

input('it is conllected,please press any key to continue...')
コード例 #2
0
ファイル: 123456hd.py プロジェクト: 735579768/Python
        # 采集项目的名字
        "name": "moviebt",
        "hostname": "http://www.123456hd.com",
        # 入口地址
        "url": "http://123456hd.com/1_2____datetime_.html",
        # 抓取进入的深度
        "shendu": 3,
        # 类似网址入口正则(精确要进入采集的网址)
        "link_tezheng": ["/\d{1,5}_\d{1,5}____datetime_\.html", "/\d{1,5}_\d{1.5}____datetime_\.html"],
        # 目标网址正则
        "mb_url_reg": "<a[^><\n]*?href=[\"|']?(/detail/\?\d{1,10}\.html)[\"|']?[^><\n]*?>.*?</a>",
        # 目标内容正则
        "mb_con_reg": 'layout_fbox.*?影片名称.*?<strong>(.*?)</strong>.*?第1集.*?href\="(.*?)".*?</li>',
        # 内容正则中的分组对应的字段信息
        "field": {"title": 1, "moviebt": 2},
        # 采集到的内容字段sql语句
        "content_sql": """\
              `title` varchar(255) DEFAULT NULL,
              `moviebt` varchar(255) DEFAULT NULL,""",
        "charset": "gbk",
    }
]

for i in cjurl:
    spi = urlspider(i)
    spi.isproxy = True
    spi.run()


input("it is conllected,please press any key to continue...")
コード例 #3
0
cjurl=[
    {
    #采集项目的名字
    'name':'domain',
    'hostname':'http://del.chinaz.com/',
    #入口地址
    'url':'http://del.chinaz.com/?kw=&p=0&bl=6&el=6&ds%5B%5D=1&py=1&pl=0&sort=1&suffix%5B%5D=com&dt=1&date=1&pagesize=30&st=1&page=1',
    #抓取进入的深度
    'shendu':0,
    #类似网址入口正则(精确要进入采集的网址)
    'link_tezheng':['/\?kw\=&p\=0&bl\=6&el\=6&ds%5B%5D\=1&py\=1&pl\=0&sort\=1&suffix%5B%5D\=com&dt\=1&date\=1&pagesize\=30&st\=1&page\=\d{1,5}'],
    #目标网址正则
    'mb_url_reg':'<a[^><\n]*?href=["|\']?([^><\n]*?(?:/\?kw\=&p\=0&bl\=6&el\=6&ds%5B%5D\=1&py\=1&pl\=0&sort\=1&suffix%5B%5D\=com&dt\=1&date\=1&pagesize\=30&st\=1&page\=\d{1,5})[^><\n]*?)["|\']?[^><\n]*?>.*?</a>',
    #目标内容正则
    'mb_con_reg':'<td[^>]*?domainname.*?>.*?(<a[^>]*?>(\w{6,6}\.com).*?</a>).*?</td>',
    #内容正则中的分组对应的字段信息
    'field':{
        'domain':2,
    },
    #采集到的内容字段sql语句
    'content_sql':'''\
              `domain` varchar(255) DEFAULT NULL,''',
    'charset':'utf-8',
    }
]

for i in cjurl:
    spi=kl_spider.urlspider(i)
    spi.run()
input('it is conllected,please press any key to continue...')