Exemplos de ContentExtractor em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: ContentExtractor

Classe / Tipo: ContentExtractor

Exemplos em hotexamples.com: 3

ContentExtractor em Python - 3 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de ContentExtractor.ContentExtractor em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

ContentExtractor(1)

extractMappedContentList(1)

parse(1)

Métodos Frequentes

ContentExtractor (1)

extractMappedContentList (1)

parse (1)

Relacionados

find_layout

tx_buf_len

TestCaseResultParser

lv_remove

LPvExperimentProcess

prepareColdata

Tag_Position

ReaderMonitor

xmlrpcCleanup

DLLMTargetCl

Related in langs

checkmx_idna (PHP)

getMovieName (PHP)

DataTableProses (C#)

Classes.ClsSuppliers (C#)

interpretInhOption (C++)

LexParser (C++)

HGE_StringState_t (Go)

BGColorFunction (Go)

Xog_win_itm (Java)

Decoration (Java)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: weighters.py Projeto: ktisha/ebook-service

def weightLinksOnPage( self, bodySoup, winSize = 3 ): #print self.kw.words links= {} ce = ContentExtractor() mc = ce.extractMappedContentList(bodySoup) for i in mc[0]: if type(i) != types.IntType: continue link = mc[1][i].get('href') links[link] = self.weightWindowed( mc[0], i, winSize ) # max(...) return links

Exemplo n.º 2

0

Exibir arquivo

def process(pagedirs, contentdb): sources = os.listdir(pagedirs) ce = ContentExtractor(db=DB(contentdb)) for source in sources: sourcedir = os.path.join(pagedirs, source) if not os.path.isdir(sourcedir): continue pagenames = os.listdir(sourcedir) pagenames = diff_task(pagenames, contentdb) for pagename in pagenames: hashurl = pagename pagename = os.path.join(sourcedir, pagename) with open(pagename, 'r') as f: ce.parse(page=f.read(), source=source, hashurl=hashurl)

Exemplo n.º 3

0

Exibir arquivo

Arquivo: main.py Projeto: AugustLONG/zufang

def process(pagedirs, contentdb): sources = os.listdir(pagedirs) ce = ContentExtractor( db=DB(contentdb) ) for source in sources: sourcedir = os.path.join(pagedirs, source) if not os.path.isdir(sourcedir): continue pagenames = os.listdir(sourcedir) pagenames = diff_task(pagenames, contentdb) for pagename in pagenames: hashurl = pagename pagename = os.path.join(sourcedir, pagename) with open(pagename, 'r') as f: ce.parse( page=f.read(), source=source, hashurl=hashurl )