Python Crawler.return_soup Exemples

Langage de programmation: Python

Espace de nommage/Pack: crawler

Class/Type: Crawler

Méthode/Fonction: return_soup

Exemples au hotexamples.com: 2

Python Crawler.return_soup - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de crawler.Crawler.return_soup extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

Crawler(30)

__init__(27)

map(15)

assets_json(5)

info(4)

visit(3)

analyze(3)

_get_url_contents(3)

__subclasses__(3)

get_Torrents_List(2)

load(2)

download_Page_Files(2)

crawl_web(2)

reset(2)

response(2)

add_data(2)

_same_host(2)

_has_product(2)

return_soup(2)

dump(2)

AddURLs(2)

Grab(2)

Start(2)

ToggleTOR(2)

Update(2)

isValidUrl(1)

open_browser(1)

open(1)

mostrarConfig(1)

GetInfoNames(1)

GetInfoValues(1)

keepUrl(1)

isAlive(1)

poll(1)

insert_root(1)

GetTasks(1)

headers(1)

get_top_news(1)

get_result(1)

get_records(1)

get_pagelist(1)

get_headers(1)

get_forms(1)

output_csv(1)

recuperarInf(1)

post(1)

scrape_registrations(1)

submit(1)

silent(1)

show_imagelist(1)

Méthodes fréquemment utilisées

Crawler (30)

__init__ (27)

map (15)

assets_json (5)

info (4)

visit (3)

analyze (3)

_get_url_contents (3)

__subclasses__ (3)

get_Torrents_List (2)

Méthodes fréquemment utilisées

load (2)

download_Page_Files (2)

crawl_web (2)

reset (2)

response (2)

add_data (2)

_same_host (2)

_has_product (2)

return_soup (2)

dump (2)

AddURLs (2)

Grab (2)

Start (2)

ToggleTOR (2)

Update (2)

isValidUrl (1)

open_browser (1)

open (1)

mostrarConfig (1)

GetInfoNames (1)

Méthodes fréquemment utilisées

AddURLs (2)

Grab (2)

Start (2)

ToggleTOR (2)

Update (2)

isValidUrl (1)

open_browser (1)

open (1)

mostrarConfig (1)

GetInfoNames (1)

GetInfoValues (1)

keepUrl (1)

isAlive (1)

poll (1)

insert_root (1)

GetTasks (1)

headers (1)

get_top_news (1)

get_result (1)

get_records (1)

get_pagelist (1)

get_headers (1)

get_forms (1)

output_csv (1)

recuperarInf (1)

post (1)

scrape_registrations (1)

submit (1)

silent (1)

show_imagelist (1)

Méthodes fréquemment utilisées

GetInfoValues (1)

keepUrl (1)

isAlive (1)

poll (1)

insert_root (1)

GetTasks (1)

headers (1)

get_top_news (1)

get_result (1)

get_records (1)

get_pagelist (1)

get_headers (1)

get_forms (1)

output_csv (1)

recuperarInf (1)

post (1)

scrape_registrations (1)

submit (1)

silent (1)

show_imagelist (1)

show_blacklist (1)

set_topic (1)

set_logger (1)

set_factors (1)

setUrl (1)

scrape_nodes (1)

get_cookies (1)

save_data (1)

save_contacts (1)

DumpURLs (1)

return_pagelist (1)

EnableTasksToFile (1)

GetHistory (1)

request_headers (1)

remove_duplicated_entries (1)

get_festivals (1)

_crawl_delay_time (1)

get_bank (1)

_scrape_pages (1)

auto_crawl (1)

Exemple #1

0

Afficher le fichier

Fichier : mainengine.py Projet : sbk-cool/the-hindu-news-scrapper

def get_docs(self): crwl=Crawler() for page in self.pagelist: if page != '#' and page != 'mailto:[email protected]' and page !=None: if(crwl.get_page(page)!=True): continue soup=crwl.return_soup() content=soup.find("div",{"class":"article-text"}) if content != None: div=content.find('div',id='articleKeywords') if div != None: div.decompose() div=content.find('div',id='addshare') if div != None: div.decompose() div=content.find('div',{'class':'rel-block-sec'}) if div != None: div.decompose() div=content.find('div',{'class':'photo-caption'}) if div != None: div.decompose() div=content.find('div',{'class':'related-column'}) if div != None: div.decompose() x=[s.extract() for s in content('script')] text=content.text text=re.sub('[\n]+',' ',text) text=re.sub('[ ]+',' ',text) text=text.strip() if(len(text)<=10): self.error_pagelist.append(page) else: self.final_docs.append(text)

Exemple #2

0

Afficher le fichier

Fichier : mainengine.py Projet : sbk-cool/the-hindu-news-scrapper

def __init__(self): crwl=Crawler() crwl.get_pagelist() self.pagelist=crwl.return_pagelist() self.soup=crwl.return_soup() self.articledb=ArticleDb('localhost',27017) self.articledb.init_backend('testdb','testcol') self.final_docs=[] self.error_pagelist=[]