コード例 #1
0
ファイル: familydoctor.py プロジェクト: tenaghirmb/HISBs
 def parse_url(self, response):
     if len(response.url) < 100:
         item = UrlextractItem()
         item['site'] = 'familydoctor'
         url = re.search('www\.familydoctor\.com\.cn\/.*?\/.*',
                         response.url).group()
         item['url'] = url
         yield item
コード例 #2
0
ファイル: fx120.py プロジェクト: tenaghirmb/HISBs
 def parse_url(self, response):
     if len(response.url) < 100:
         item = UrlextractItem()
         item['site'] = 'fx120'
         item['url'] = response.url
         yield item
         try:
             try:
                 url = re.search('http.*?www.*?fx120.*?/.*?/',
                                 response.url).group()
             except AttributeError:
                 url = re.search('.*?fx120.net/', response.url).group()
             item = UrlextractItem()
             item['site'] = 'fx120'
             item['url'] = url
             yield item
         except AttributeError:
             pass
コード例 #3
0
 def parse_url(self, response):
     if len(response.url) < 100:
         try:
             item = UrlextractItem()
             item['site'] = 'haodf'
             url = re.search('.*?\.haodf\.com/', response.url).group()
             item['url'] = url
             yield item
         except AttributeError:
             pass
コード例 #4
0
ファイル: healthSina.py プロジェクト: tenaghirmb/HISBs
 def parse_url(self, response):
     if len(response.url) < 100:
         try:
             item = UrlextractItem()
             item['site'] = 'healthSina'
             url = re.search('.*?health\.sina\.com\.cn/.*?/',
                             response.url).group()
             item['url'] = url
             yield item
         except AttributeError:
             pass
コード例 #5
0
ファイル: net39.py プロジェクト: tenaghirmb/HISBs
 def parse_url(self, response):
     if len(response.url) < 100:
         item = UrlextractItem()
         item['site'] = 'net39'
         item['url'] = response.url
         yield item