Esempi in Python per Crawler.open

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: crawler

Classe/tipologia: Crawler

Metodo/funzione: open

Esempi su hotexamples.com: 1

Crawler.open in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per crawler.Crawler.open, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Crawler(30)

__init__(27)

map(15)

assets_json(5)

info(4)

visit(3)

analyze(3)

_get_url_contents(3)

__subclasses__(3)

get_Torrents_List(2)

load(2)

download_Page_Files(2)

crawl_web(2)

reset(2)

response(2)

add_data(2)

_same_host(2)

_has_product(2)

return_soup(2)

dump(2)

AddURLs(2)

Grab(2)

Start(2)

ToggleTOR(2)

Update(2)

isValidUrl(1)

open_browser(1)

open(1)

mostrarConfig(1)

GetInfoNames(1)

GetInfoValues(1)

keepUrl(1)

isAlive(1)

poll(1)

insert_root(1)

GetTasks(1)

headers(1)

get_top_news(1)

get_result(1)

get_records(1)

get_pagelist(1)

get_headers(1)

get_forms(1)

output_csv(1)

recuperarInf(1)

post(1)

scrape_registrations(1)

submit(1)

silent(1)

show_imagelist(1)

Esempio n. 1

Mostra file

File: htmlparser.py Progetto: KroosT/BSUIR_Python_Lab_003

class HtmlParser(object):

    crawled_file = ''
    urls_file = ''
    depth, width = 3, 5

    def __init__(self, urls):
        self.urllist = set(urls)
        self.cr = Crawler(HtmlParser.depth, HtmlParser.width)
        self.title = ""
        self.text = ""
        self.word_pos = {}
        self.queue = m.JoinableQueue()
        self.crawled = set()
        HtmlParser.crawled_file = 'crawled_links.txt'
        HtmlParser.urls_file = 'urls.txt'
        tools.set_to_file(self.urllist, HtmlParser.urls_file)

    def geturllist(self, response, soup):
        base = response.geturl()
        i = 0
        for link in soup.find_all('a'):
            if i >= self.cr.width:
                break
            parsed_link = urlparse.urldefrag(urlparse.urljoin(
                base, link.get('href')))[0].encode('ascii', 'ignore')
            if (parsed_link in self.crawled) or (parsed_link in self.urllist):
                continue
            self.urllist.add(parsed_link)
            i += 1

    def gettext(self, soup):
        for s in soup.find_all(['style', 'script', '[document]', 'head',
                                'title']):
            s.decompose()
        self.text = ' '.join(soup.get_text().split())

    def gettitle(self, soup):
        self.title = soup.title.string.encode('utf-8')

    def startcrawler(self):
        while True:
            url = self.queue.get()
            if url is None:

                break
            if url not in self.crawled:
                try:
                    self.urllist.remove(url)
                except KeyError:
                    print ('No such url in urllist')
                self.crawled.add(url)
                response = self.cr.open(url)
                soup = BeautifulSoup(response, 'html.parser')
                self.gettitle(soup)
                self.gettext(soup)
                self.word_pos = self._words_positions(self.text)
                if self.cr.depth >= 0:
                    self.geturllist(response, soup)
                page = WebPage(url=url, title=self.title, text=self.text,
                               indexed=False)
                try:
                    page.save()
                except IntegrityError:
                    print "IntegrityError founded. Go ahead."
                for (word, list_pos) in self.word_pos.iteritems():
                    index = Indexing.objects.create(
                            word=word, frequency=len(list_pos), webpage=page)
                    index.save()
                page.indexed = True
                page.save()
                self.update_files()
                for link in self.urllist:
                    self.queue.put(link)
                self.queue.task_done()
            self.queue.task_done()

    def multiproc(self):
        if len(self.urllist) > 0:
            for link in self.urllist:
                self.queue.put(link)

        workers = []
        for _ in range(NUMBER_OF_THREADS):
            worker = m.Process(target=self.startcrawler)
            workers.append(worker)
            worker.start()
            worker.join()

        self.queue.join()
        self.queue.put(None)
        self.queue.put(None)

        for i in range(NUMBER_OF_THREADS):
            workers[i].join(None)

    def update_files(self):
        tools.set_to_file(self.crawled, HtmlParser.crawled_file)
        tools.set_to_file(self.urllist, HtmlParser.urls_file)

    @staticmethod
    def _words_positions(text):
        words = re.findall(ur'\w+', unicode(text).lower(), flags=re.UNICODE)
        word_pos = {}
        for index, word in enumerate(words):
            if word in word_pos:
                word_pos[word].append(index)
            else:
                word_pos[word] = [index]
        return word_pos