Python Selector.register_namespace 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: scrapy

클래스/타입: Selector

메소드/함수: register_namespace

hotexamples.com에서의 예제들: 3

Python Selector.register_namespace - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 scrapy.Selector.register_namespace에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Selector(30)

css(30)

split(30)

xpath(30)

re(24)

extract(22)

replace(11)

strip(9)

__len__(8)

remove_namespaces(7)

startswith(7)

find(6)

select(6)

__contains__(4)

extract_first(3)

index(3)

append(2)

register_namespace(2)

re_first(2)

group(2)

get(2)

findall(2)

endswith(1)

rsplit(1)

json(1)

select_by_visible_text(1)

isdigit(1)

예제 #1

파일 보기

def get_node(text, namespaces=None):
    """Get a scrapy selector for the given text node."""
    node = Selector(text=text, type="xml")
    if namespaces:
        for ns in namespaces:
            node.register_namespace(ns[0], ns[1])
    return node

예제 #2

파일 보기

파일: utils.py 프로젝트: bittirousku/hepcrawl

def get_node(text, namespaces=None):
    """Get a scrapy selector for the given text node."""
    node = Selector(text=text, type="xml")
    if namespaces:
        for ns in namespaces:
            node.register_namespace(ns[0], ns[1])
    return node

예제 #3

파일 보기

    def parse_node(self, response, node):
        sel = Selector(response)
        sel.register_namespace("wsj", "http://dowjones.net/rss/")

        if is_todays_article(node):
            title = node.xpath('title/text()').get().strip()
            description = remove_html(node.xpath('description/text()').get())
            yield {
                "title":
                title,
                "link":
                node.xpath('link/text()').get().strip(),
                "description":
                description,
                "date":
                transform_date(node.xpath('pubDate/text()').get()),
                "categories":
                self.get_categories(
                    sel.xpath('//wsj:articletype/text()').getall(), title,
                    self.category_classifier),
                "source":
                "Wallstreet Journal",
                "sentiment":
                self.sentiment_classifier.classify("{} {}".format(
                    title, description))
            }