Python Page.add_html 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: page

클래스/타입: Page

메소드/함수: add_html

hotexamples.com에서의 예제들: 2

Python Page.add_html - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 page.Page.add_html에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Page(30)

__init__(30)

content(8)

add_page(7)

addForm(5)

addBlockCenter(5)

button(4)

a(4)

body(4)

click(4)

create(4)

resources(3)

find(3)

in_index(3)

addBlockRight(3)

get_by_name(3)

close(2)

crawl(2)

import_tables(2)

data(2)

find_links_in_content(2)

gSoupToLinks(2)

index_num(2)

process_node(2)

scrap(2)

set_data(2)

click_add_new_product(2)

control(2)

all(2)

addScript(2)

add_html(2)

addBlockLeft(2)

_Icons(2)

_Name(2)

change_product_name(1)

parse_date(1)

navigate(1)

length(1)

is_valid(1)

insertThumbnail(1)

is_enabled(1)

print_form_results(1)

inflate(1)

add(1)

index(1)

parse_table(1)

printed_output(1)

print_info(1)

set_confidences(1)

validate(1)

예제 #1

파일 보기

    def fetch_pages_helper(self, urls, start, step, cache, results):
        """
        Helper function for parallel fetching 
        """
        max_size = 5000000
        pages = []

        for i in range(start, len(urls), step):
            url = urls[i]
            if (i + 1) % 500 == 0:
                print "Fetched ", i, " urls"
            page = Page(url)
            try:
                text = ''
                size = 0
                res = requests.get(url,
                                   headers=self.header,
                                   verify=False,
                                   timeout=5,
                                   stream=True)
                #t = time.time()
                for chunk in res.iter_content(10000):
                    #if (time.time() - t) > 5:
                    #    break
                    #    raise ValueError('timeout reached')
                    text += chunk
                    size += len(chunk)
                    if size > max_size:
                        print "Size exceeds ", size
                        raise ValueError('response too large')

                if res.status_code == 200:
                    #page = Page(url)
                    if len(text) < self.max_html_size:
                        page.add_html(text)
                else:
                    print "Failed to fetch ", url, res.status_code, start
            except:
                print "Failed to fetch ", url
                continue

            # Save to cache. Note that always save the fetched pages even if the requests were failed
            # since we want to avoid re-fetch these pages in the future
            if self.caching:
                cache.add(url, page.get_json_obj())
            else:
                page.get_json_obj()  # hack

            if page.body and (len(page.get_text('body')) > 100):
                #if not page.is_empty():
                pages.append(page)
        results.put(pages)

예제 #2

파일 보기

    def fetch(self, urls, out_file, extraction=True):
        """
        Parameters:
        -----------
        urls: list of url. Each url represents a website

        Returns:
        --------
        list<website>: list of fetched websites
        """
        if os.path.exists(out_file):
            fetched_urls = []
            with open(out_file) as lines:
                for line in lines:
                    try:
                        jsobj = json.loads(line)
                        fetched_urls.append(jsobj['url'])
                    except:
                        traceback.print_exc()
            urls = [url for url in urls if url not in fetched_urls]

        print "Number of urls to fetch: ", len(urls)
        out = open(out_file, 'a+')

        for i, url in enumerate(urls):
            if (i + 1) % 20 == 0:
                print "Fetched ", i, " urls"
            try:
                res = requests.get(url,
                                   headers=self.header,
                                   verify=False,
                                   timeout=10)
                if res.status_code == 200:
                    page = Page(url)
                    if len(res.text) < self.max_html_size:
                        page.add_html(res.text)
                        if extraction:
                            jspage = page.get_json_obj()
                        else:
                            jspage = {'url': url, 'html': res.text}
                        out.write(json.dumps(jspage) + '\n')
                else:
                    print res.status_code, url
            except:
                print "Failed to fetch ", url
                traceback.print_exc()

        out.close()