Python Crawl.crawl_next_page_for_links примеры использования

Язык программирования: Python

Пространство имен/Пакет: Crawl

Класс/Тип: Crawl

Метод/Функция: crawl_next_page_for_links

Примеров на hotexamples.com: 2

Python Crawl.crawl_next_page_for_links - 2 примера найдено. Это лучшие примеры Python кода для Crawl.Crawl.crawl_next_page_for_links, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Crawl(5)

begin(3)

crawl_next_page_for_links(2)

dropTable(2)

filter(2)

get(2)

Finish(1)

Run(1)

add_url(1)

dropAndCreate(1)

dummy(1)

end(1)

load_next_page(1)

Пример #1

Показать файл

Файл: Controller.py Проект: gnlpf/codingclub_searchengine

    def start_simple(self):

        # get the crawler
        crawler = Crawl()

        crawler.add_url(self.ask_for_link())
        crawler.load_next_page()
        links = crawler.crawl_next_page_for_links()
        for link in links:
            crawler.add_url(link)

        pass

Пример #2

Показать файл

Файл: main.py Проект: gnlpf/codingclub_searchengine

def main():
    #    start by asking for a link
    toCrawl = []
    crawled = []
    toCrawl.append(getLinkToPage())
    crawlercl = Crawl()
    #    print "got page " + pageLink

    maxPagesSearched = 100
    i = 0

    #   search this page for links
    while len(toCrawl) > 0:
        # get first entry of "toCrawl" list
        crawl = toCrawl.pop()

        # TODO
        # ensure that this link is not contained in the "crawled" list        
        if crawl in crawled:
            # continue with the next loop
            continue

        links = crawlercl.crawl_next_page_for_links(crawl)

        # put into "crawled" list
        crawled.append(crawl)

        # add new found links to "toCrawl" list
        for link in links:
            # ensure that the link is not in the "crawled" list
            if link not in crawled:
                toCrawl.append(makeAbsoluteLink(link, crawl))
                print makeAbsoluteLink(link, crawl)

        # stop loop after .. iterations
        i += 1
        if i >= maxPagesSearched:
            break

    return 0