Esempi in Python per Crawler.return_soup

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: crawler

Classe/tipologia: Crawler

Metodo/funzione: return_soup

Esempi su hotexamples.com: 2

Crawler.return_soup in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per crawler.Crawler.return_soup, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Crawler(30)

__init__(27)

map(15)

assets_json(5)

info(4)

visit(3)

analyze(3)

_get_url_contents(3)

__subclasses__(3)

get_Torrents_List(2)

load(2)

download_Page_Files(2)

crawl_web(2)

reset(2)

response(2)

add_data(2)

_same_host(2)

_has_product(2)

return_soup(2)

dump(2)

AddURLs(2)

Grab(2)

Start(2)

ToggleTOR(2)

Update(2)

isValidUrl(1)

open_browser(1)

open(1)

mostrarConfig(1)

GetInfoNames(1)

GetInfoValues(1)

keepUrl(1)

isAlive(1)

poll(1)

insert_root(1)

GetTasks(1)

headers(1)

get_top_news(1)

get_result(1)

get_records(1)

get_pagelist(1)

get_headers(1)

get_forms(1)

output_csv(1)

recuperarInf(1)

post(1)

scrape_registrations(1)

submit(1)

silent(1)

show_imagelist(1)

Esempio n. 1

Mostra file

File: mainengine.py Progetto: sbk-cool/the-hindu-news-scrapper

 def get_docs(self):
     crwl=Crawler()
     for page in self.pagelist:
         if page != '#' and page != 'mailto:[email protected]' and page !=None:
             if(crwl.get_page(page)!=True):
                 continue
             soup=crwl.return_soup()
             content=soup.find("div",{"class":"article-text"})
             if content != None:
                 div=content.find('div',id='articleKeywords')
                 if div != None:
                     div.decompose()
                 div=content.find('div',id='addshare')
                 if div != None:
                     div.decompose()
                 div=content.find('div',{'class':'rel-block-sec'})
                 if div != None:
                     div.decompose()
                 div=content.find('div',{'class':'photo-caption'})
                 if div != None:
                     div.decompose()
                 div=content.find('div',{'class':'related-column'})
                 if div != None:
                     div.decompose()
                 x=[s.extract() for s in content('script')]
                 text=content.text
                 text=re.sub('[\n]+',' ',text)
                 text=re.sub('[ ]+',' ',text)
                 text=text.strip()
                 if(len(text)<=10):
                     self.error_pagelist.append(page)
                 else:
                     self.final_docs.append(text)

Esempio n. 2

Mostra file

File: mainengine.py Progetto: sbk-cool/the-hindu-news-scrapper

 def __init__(self):
     crwl=Crawler()
     crwl.get_pagelist()
     self.pagelist=crwl.return_pagelist()
     self.soup=crwl.return_soup()
     self.articledb=ArticleDb('localhost',27017)
     self.articledb.init_backend('testdb','testcol')
     self.final_docs=[]
     self.error_pagelist=[]