Python SourceParser Exemples

Langage de programmation: Python

Espace de nommage/Pack: sourceparser

Class/Type: SourceParser

Exemples au hotexamples.com: 2

Python SourceParser - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de sourceparser.SourceParser extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

getAbsUrls(1)

matchUrl(1)

saveSource(1)

setCurPageUrl(1)

setSource(1)

Méthodes fréquemment utilisées

getAbsUrls (1)

matchUrl (1)

saveSource (1)

setCurPageUrl (1)

setSource (1)

Associées

bk

config_string_to_dict

addon_log

use_score_func

getFusedEuler

ExprBase

SubnetTree

parse_qstat1

CourseForm

filter_multi

Related in langs

teardown (PHP)

JFormFieldJsnshowcase (PHP)

ImportKeyRequest (C#)

Engine (C#)

SetAlign (C++)

_center (C++)

ParseError (Go)

MakeServiceId (Go)

APIManagerLifecycleBaseTest (Java)

CoordinatorLifecycleResource (Java)

Exemple #1

0

Afficher le fichier

Fichier : reptile.py Projet : Superjom/TDA

def __init__(self): print '.. init Reptile' _config = Config() _Reptile.__init__(self, _config.getint('reptile', 'page_num')) self.curPageUrl = '' startpages = _config.get('reptile', 'startpage').split() _netlocs = [] for url in startpages: self._queue.put(url) print '.. init startpages: ', startpages self._sourceparser = SourceParser(startpages)

Exemple #2

0

Afficher le fichier

Fichier : reptile.py Projet : Superjom/TDA

class Reptile(_Reptile): ''' main reptile ''' def __init__(self): print '.. init Reptile' _config = Config() _Reptile.__init__(self, _config.getint('reptile', 'page_num')) self.curPageUrl = '' startpages = _config.get('reptile', 'startpage').split() _netlocs = [] for url in startpages: self._queue.put(url) print '.. init startpages: ', startpages self._sourceparser = SourceParser(startpages) def matchUrl(self, url): print 'match url:', url return self._sourceparser.matchUrl(url) def run(self): print '.. run' while not self._queue.empty(): time.sleep(random.randint(5,20)) print '.. while not run' url = self._queue.get() self._sourceparser.setCurPageUrl(url) #if not self.outPageRange(): #if True: print '.. post: ', url _source = self.requestSource(url) if not _source: continue print '.. get: source length ', len(_source) self._sourceparser.setSource(_source) self._sourceparser.saveSource(self.downloadedPageNum) _absurls = self._sourceparser.getAbsUrls() for url in _absurls: self.inQueue(url)