Python Spider.make_request Examples

Programming Language: Python

Namespace/Package Name: Spider

Class/Type: Spider

Method/Function: make_request

Examples at hotexamples.com: 1

Python Spider.make_request - 1 examples found. These are the top rated real world Python examples of Spider.Spider.make_request extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Spider(30)

__init__(5)

crawl(4)

run(3)

crawl_page(3)

get_page(2)

scapy(2)

getContent(2)

insert_jobs(1)

load_users(1)

main(1)

make_request(1)

modify_data(1)

modify_grade(1)

search_cite_papers(1)

printProblems(1)

queryMatrixProblems(1)

hrefFor2018(1)

queryProblems(1)

read_library(1)

status_crawl(1)

serialFetchAllProblems(1)

runSpider(1)

parallelFetchAllProblems(1)

get_my_follower(1)

getdoc(1)

crawl_url(1)

adapt_job_city(1)

alive(1)

analyze_jobs(1)

associate_key_and_job(1)

close(1)

contentOfArtical(1)

crawlPlayer(1)

crawl_error_user(1)

crawler_data(1)

get_page_count(1)

crawling(1)

crawljobs(1)

deleteDatabase(1)

enable_collection(1)

getData(1)

getItemsCount(1)

get_my_fans(1)

Start(1)

user_crawl(1)

Example #1

Show file

File: Yaff.py Project: johnlam/various

class Yaff(object):
    def __init__(self, url, **kwargs):
        self.results = defaultdict(list)
        self.maxdepth = 2
        self.URLHandler = URLHandler()
        self.candidates = set()
        self.url = url
        self.baseurl = self.URLHandler.get_provider(self.url)
        self.spider = Spider(self.url, **kwargs)
        self.mysoup = BeautifulSoup(self.spider.request.text)

    def getnormalfeeds(self):
        tags = self.mysoup.findAll(['link', 'a'],
                                   {"type": ['application/rss+xml', 'application/atom+xml',
                                             "application/x.atom+xml",
                                             "text/xml", "application/xhtml+xml"]})
        for tag in tags:
            url = URLHandler.get_full_urls(self.baseurl, tag['href'])
            self.results[url].append(Result(title=tag.get('title', ''),
                                            feedtype=tag.get('type', '')))
        return self

    def gethiddenfeeds(self):
        for i in range(self.maxdepth):
            self._getcandidatetags()
            for candidate in self.candidates:
                try:
                    self.spider.make_request(candidate)
                    self.mysoup = BeautifulSoup(self.spider.request.text)
                except ValueError as e:
                    print(e)
                    continue
                if self.isfeed():
                    self.results[self.spider.request.url].append(Result(
                        title=self.mysoup.find('title').text,
                        feedtype=self.spider.contenttype))

                self.getnormalfeeds()
        return self

    def getrootrss(self):
        self.spider.make_request(self.url + '/rss')
        if self.isfeed():
            self.mysoup = BeautifulSoup(self.spider.request.text)
            url = URLHandler.get_full_urls(self.baseurl, self.url + '/rss')
            self.results[url].append(Result(
                title=self.mysoup.find('title').text,
                feedtype=self.spider.contenttype))
        return self

    def _getcandidatetags(self):
        tags = self.mysoup.findAll('a')
        feedstrings = ['feed', 'rss', 'atom', 'xml']
        for tag in tags:
            try:
                if any(fstring in tag['href'] for fstring in feedstrings):
                    self.candidates.add(URLHandler.get_full_urls(self.baseurl, tag['href']))
            except:
                continue

    def isfeed(self):
        if 'xml' in self.spider.contenttype or 'atom' in self.spider.contenttype:
            return True
        return False