Python HTMLDocument Exemples

Langage de programmation: Python

Espace de nommage/Pack: rrslib.web.htmltools

Class/Type: HTMLDocument

Exemples au hotexamples.com: 4

Python HTMLDocument - 4 exemples trouvés. Ce sont les exemples réels les mieux notés de rrslib.web.htmltools.HTMLDocument extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

HTMLDocument(1)

__init__(1)

get_etree(1)

parse_document(1)

Méthodes fréquemment utilisées

HTMLDocument (1)

__init__ (1)

get_etree (1)

parse_document (1)

Associées

fill_group_record

parse_date

Image

httprr

total_cost

Snippet

sleep

is_conf_key_exists

KDTree

get_cpu_xml

Related in langs

CCGetCookie (PHP)

is_iphone_with_wptouch (PHP)

MockFwXApp (C#)

MarketHistory (C#)

master_energy_calc (C++)

GetWString (C++)

ReadCurrentController (Go)

Log (Go)

Classifier (Java)

DefaultScoreBoardControllerServlet (Java)

Exemple #1

0

Afficher le fichier

def extract_data(self, etree, url): """ Extract all possible data about the publication from the web page. @param etree - parsed DOM tree of the web page (has to be instance of lxml.etree._ElementTree) @param url - url of the web page @return RRSPublication object containing extracted data """ assert isinstance(url, basestring) assert isinstance(etree, _ElementTree) #c = Cleaner(scripts=True, javascript=True, comments=True, style=False, # meta=False, page_structure=False, processing_instructions=True, # embedded=True, frames=False, forms=True, annoying_tags=False, # add_nofollow=False, remove_unknown_tags=False) #etree = c.clean_html(etree) self.url = url self.domain = re.sub("http://(www)?", "", self.url).split(".")[0] self._storage = {} self._publ = RRSPublication() cleaned_etree = SimpleHTMLCleaner.clean_html(etree) page = HTMLDocument(cleaned_etree, url) self.pagetext = page.get_etree().getroot().text_content() # parse CSS and metadata on the page page.parse_document() # get data from <meta> tags nad convert to RRS format self._parse_meta(page) # get data on the basis of the text visbility and recognized headers self._parse_visibility(page) # and now guess :) self._find_unbound_entities(page) # and parse BibTeX self._parse_bibtex(page) return self._publ

Exemple #2

0

Afficher le fichier

Fichier : webmetaextractor.py Projet : Nela-xkaspa35/Rozsireni-portalu-vyzkumnych-projektu

def extract_data(self, etree, url): """ Extract all possible data about the publication from the web page. @param etree - parsed DOM tree of the web page (has to be instance of lxml.etree._ElementTree) @param url - url of the web page @return RRSPublication object containing extracted data """ assert isinstance(url, basestring) assert isinstance(etree, _ElementTree) #c = Cleaner(scripts=True, javascript=True, comments=True, style=False, # meta=False, page_structure=False, processing_instructions=True, # embedded=True, frames=False, forms=True, annoying_tags=False, # add_nofollow=False, remove_unknown_tags=False) #etree = c.clean_html(etree) self.url = url self.domain = re.sub("http://(www)?", "", self.url).split(".")[0] self._storage= {} self._publ = RRSPublication() cleaned_etree = SimpleHTMLCleaner.clean_html(etree) page = HTMLDocument(cleaned_etree, url) self.pagetext = page.get_etree().getroot().text_content() # parse CSS and metadata on the page page.parse_document() # get data from <meta> tags nad convert to RRS format self._parse_meta(page) # get data on the basis of the text visbility and recognized headers self._parse_visibility(page) # and now guess :) self._find_unbound_entities(page) # and parse BibTeX self._parse_bibtex(page) return self._publ

Exemple #3

0

Afficher le fichier

Fichier : sequencewrapper.py Projet : lucidvoci/ResearchProjectPortal

def __init__(self, elemtree, url): HTMLDocument.__init__(self, elemtree, url) self.regions = []

Exemple #4

0

Afficher le fichier

Fichier : sequencewrapper.py Projet : Nela-xkaspa35/Rozsireni-portalu-vyzkumnych-projektu

def __init__(self, elemtree, url): HTMLDocument.__init__(self, elemtree, url) self.regions = []