Python extract示例

编程语言: Python

命名空间/包名称: spider.spider

方法/功能: extract

hotexamples.com的示例: 6

Python extract - 已找到6个示例。这些是从开源项目中提取的最受好评的spider.spider.extract现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： jobbole_com.py 项目： budong/code_segment

 def get(self,page):
     for html in self.extract_all('<h2><a  target="_blank" href="http://blog.jobbole.com', '<!-- .entry-content -->'):
         id = html[:html.find('"')] 
         title = extract('/','<',html).split(">",1)[-1]
         link_html = extract('<div class="entry-content">','</p>', html)
         link_html = extract('<p', None, link_html)
         txt = html2txt(link_html)
         if "http://" in txt:
             print "http://blog.jobbole.com%s"%id
             print title
             print txt  
             print ""

示例#2

显示文件

 def get(self, page):
     for html in self.extract_all(
             '<h2><a  target="_blank" href="http://blog.jobbole.com',
             '<!-- .entry-content -->'):
         id = html[:html.find('"')]
         title = extract('/', '<', html).split(">", 1)[-1]
         link_html = extract('<div class="entry-content">', '</p>', html)
         link_html = extract('<p', None, link_html)
         txt = html2txt(link_html)
         if "http://" in txt:
             print "http://blog.jobbole.com%s" % id
             print title
             print txt
             print ""

示例#3

显示文件

文件： xianguo.py 项目： louxiu/42qu-spider

 def get(self, id):
     title = self.extract('<div class="beings-name">', '</div>')
     if not title:
         return
     title = unescape(title)
     link = self.extract('<div class="beings-website"><a href="', '"')
     if not link:
         return
     txt = self.extract('<div class="beings-description">', '</div>')
     if txt:
         txt = unescape(txt)
     img = extract('src="', '"',
                   self.extract('<a class="avatar" href="/', '</a>'))
     print dumps([id, img, link, title, txt or ''])

示例#4

显示文件

文件： alib2b.py 项目： kimly/ali-spider

 def get(self):
     now_id = int(self.get_argument("id", 0))
     page = int(self.get_argument("pi", 0))
     if now_id:
         for link in self.extract_all('<h3 class="nickname">','</h3>'):
             link = extract('"/','"', link)
             spider.put("http://xianguo.com/"+link)
         if page == 0:
             page_list = set(self.extract_all("href=\"/find/recommend?pi=","&"))
             for i in map(int,page_list):
                 if page:
                     spider.put("http://xianguo.com/find/recommend?id=%s&pi=%s"%(now_id,page))
     else:
         for id in self.extract_all(
             'href="/find/recommend?id=', '"'
         ):
             spider.put("http://xianguo.com/find/recommend?id=%s&pi=0"%id)

示例#5

显示文件

文件： alib2b.py 项目： kimly/ali-spider

 def get(self, id):
     title = self.extract('<div class="beings-name">','</div>')
     if not title:
         return
     title = unescape(title)
     link =  self.extract('<div class="beings-website"><a href="','"')
     if not link:
         return
     txt = self.extract('<div class="beings-description">','</div>')
     if txt:
         txt = unescape(txt)
     img = extract(
         'src="',
         '"', 
         self.extract('<a class="avatar" href="/','</a>')
     )
     print dumps([id, img, link,  title, txt or ''])

示例#6

显示文件

文件： xianguo.py 项目： louxiu/42qu-spider

 def get(self):
     now_id = int(self.get_argument("id", 0))
     page = int(self.get_argument("pi", 0))
     if now_id:
         for link in self.extract_all('<h3 class="nickname">', '</h3>'):
             link = extract('"/', '"', link)
             spider.put("http://xianguo.com/" + link)
         if page == 0:
             page_list = set(
                 self.extract_all("href=\"/find/recommend?pi=", "&"))
             for i in map(int, page_list):
                 if page:
                     spider.put(
                         "http://xianguo.com/find/recommend?id=%s&pi=%s" %
                         (now_id, page))
     else:
         for id in self.extract_all('href="/find/recommend?id=', '"'):
             spider.put("http://xianguo.com/find/recommend?id=%s&pi=0" % id)