Python Spider.add_url Examples

Programming Language: Python

Namespace/Package Name: spider

Class/Type: Spider

Method/Function: add_url

Examples at hotexamples.com: 2

Python Spider.add_url - 2 examples found. These are the top rated real world Python examples of spider.Spider.add_url extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Spider(30)

crawl_page(30)

crawl(14)

__init__(8)

craw(4)

Search(4)

crawl_genre(3)

build_node(3)

analyse(3)

process_page(2)

court(2)

add_url(2)

content_list(2)

GetInfo(2)

crowl(1)

crowl_page(1)

GET(1)

crawled_page(1)

createResultExcel(1)

get2l_url(1)

crawledPage(1)

crawle_page_in_queue(1)

crawl_weather(1)

crawl_video_urls(1)

crawl_robots(1)

data(1)

getfilename(1)

get3l_url(1)

post(1)

update(1)

startCrawl(1)

setworkdir(1)

setfilename(1)

setDaemon(1)

responseCallback(1)

parse_blog(1)

getSoup(1)

linkCallback(1)

levelCallback(1)

is_valid(1)

is_outgoing(1)

htmlCallback(1)

get_pdfs(1)

crawl_page_graph(1)

crawl_async_slots(1)

crawl_next_page_from_queue(1)

authorized(1)

Process(1)

ReturnValues(1)

Text(1)

Example #1

Show file

File: spider_xml_factory.py Project: 2gisprojectT/terehov-soundcloud

    def create_spider(self):
        spider = Spider()

        xml = parse(self._filename)
        params = xml.getElementsByTagName(self._parameters)
        if params is not None:
            params = params[0]

            pages = params.getElementsByTagName(self._page)
            for page in pages:
                print(page.firstChild.data)
                spider.add_url(page.firstChild.data)

            domains = params.getElementsByTagName(self._domain)
            for domain in domains:
                print(domain.firstChild.data)
                spider.add_domain(domain.firstChild.data)

            depth = params.getElementsByTagName(self._depth)
            if depth is not None:
                depth = depth[0]
                print(depth.firstChild.data)
                spider.set_max_depth(depth.firstChild.data)

        return spider

Example #2

Show file

        #print('image expired')
        spider.add_url(options['thumbnail'], 'parse_binary', options)


def parse_binary(response, spider, options):
    with open(
            folder + '/' + options['member'] + '-' + options['date'] + '-' +
            str(options['image_index']) + '.jpg', 'wb') as f:
        f.write(response)
    print('binary write with',
          options['date'] + '-' + str(options['image_index']) + '.jpg')


def parse_tieba(response, spider, options):
    bs = BeautifulSoup(
        response.replace('<!--', '').replace('-->', ''), 'html.parser')
    titles = bs.find_all(class_='j_th_tit')


if __name__ == '__main__':
    blog_spider = Spider()
    blog_spider.register_callback('parse_date', 'text', parse_date)
    # send queue to spider
    blog_spider.register_callback('parse_blog', 'text', parse_blog, True)
    blog_spider.register_callback('parse_image', 'text', parse_image)
    blog_spider.register_callback('parse_binary', 'binary', parse_binary)
    blog_spider.add_url(blog_prefix + 'manatsu.akimoto', 'parse_date',
                        {'member': 'manatsu.akimoto'})
    blog_spider.run()

#print(get_members_urlprefix())