Python UrlSpider Exemples

Langage de programmation: Python

Espace de nommage/Pack: spider_urllib2

Class/Type: UrlSpider

Exemples au hotexamples.com: 2

Python UrlSpider - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de spider_urllib2.UrlSpider extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

download(2)

Méthodes fréquemment utilisées

download (2)

Associées

_parse_signature

retrieve_game_instance

tag_split

process_submission_payload

import_python_module_from_path

setup

get_cache

ControlWidget

AdvPlugin

GetAPI

Related in langs

Jobify_Widget (PHP)

insWeekendFactor (PHP)

EnemiesSettingsMenu (C#)

MNetworkClient (C#)

l_dnaRemoveDupsByAset (C++)

MDFN_GetSettingF (C++)

Colours (Go)

Uint64 (Go)

Global (Java)

TextEncoding (Java)

Exemple #1

0

Afficher le fichier

Fichier : cx_extractor.py Projet : KeithYue/cxextractor

def test(): ext = CXExtractor() urls = [ 'http://baike.baidu.com/view/25215.htm', 'http://tieba.baidu.com/p/3069273254', 'http://hi.baidu.com/handylee/blog/item/6523c4fc35a235fffc037fc5.html', 'http://xiezuoshi.baijia.baidu.com/article/15330', 'http://www.techweb.com.cn/news/2010-08-11/659082.shtml', 'http://www.ifanr.com/15876', 'http://news.cnhubei.com/xw/yl/201404/t2894467_5.shtml', ] import sys sys.path.append('../py-crawler') from spider_urllib2 import UrlSpider spider = UrlSpider() for url in urls: raw_html, err = spider.download(url) if raw_html: print 'url:', url start_time = time.time() for i in xrange(0, 10): title, content, keywords, desc= ext.extract(raw_html) end_time = time.time() print 'QPS:', 10/ (end_time-start_time) print 'title:', title print 'content:', content else: print 'url:', url print 'error_msg:', err

Exemple #2

0

Afficher le fichier

Fichier : cx_extractor.py Projet : KeithYue/cxextractor

def test_file(p_in): ext = CXExtractor() import sys sys.path.append('../py-crawler') from spider_urllib2 import UrlSpider spider = UrlSpider() for url in open(p_in): url = url.strip() if not url: continue raw_html, err = spider.download(url) if raw_html: print '\nurl:', url title, content, keywords, desc = ext.extract(raw_html) print 'title:', title print 'content:', content