Python URL.get_url示例

编程语言: Python

命名空间/包名称: URL

类/类型: URL

方法/功能: get_url

hotexamples.com的示例: 3

Python URL.get_url - 已找到3个示例。这些是从开源项目中提取的最受好评的URL.URL.get_url现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

URL(13)

open(2)

get_url(2)

get_doi(2)

get_redirect_url(1)

set_attr(1)

redirect_occured(1)

make(1)

get_host(1)

get_querystring(1)

fetch(1)

get_citations(1)

get_attr(1)

getTuple(1)

getParamMap(1)

getBaseUrl(1)

status_ok(1)

示例#1

显示文件

文件： audit.py 项目： dung-dd/crawler-website-base

	def audit(self, origin, response):
		"""
			:origin: original url.
			all url need match with original url
			:return: list url obj
		"""
		while len(self.QUEUES) > 0:
			url_ = self.QUEUES.pop()
			self.debug("       [*] Crawling URL: " + url_.get_url())  # print debug
			self.RESULTS.append(url_)
			header, response = self.connect_getdata(url_.domain, url_.port, url_.get_module())
			links = self.get_links(response, self.domain, self.port, url_.folder)
			for link in links:
				url = URL(link)
				if not self.is_in_results(url):
					if not self.is_in_queues(url):
						self.QUEUES.insert(0, url)
						self.debug(url.get_url())
						self.debug_socket(url.get_url())
			self.RESULTS = filter(None, self.RESULTS)

示例#2

显示文件

import sys
from DB import DB
from URL import URL

db = DB('citeseerx.db')
db.create_tables()
# db.del_all()

# http://citeseerx.ist.psu.edu/viewdoc/summary?cid=16057
if len(sys.argv) == 2:
    url = URL(sys.argv[1])
    url.open()
    db.insert('link', {'doi': url.get_doi(), 'url': url.get_url()})
else:
    print 'Please supply proper URL.'

示例#3

显示文件

            })

    # add citations
    cit_html = url.get_citations()
    soup = BeautifulSoup(cit_html, "html.parser")
    trs = soup.findAll('tr', {'class': None, 'id': None})
    for tr in trs:
        td = tr.findAll('td')[1]
        a = td.find('a')
        href = a['href']
        if (href.find('viewdoc') >= 0):
            urlt = 'http://citeseerx.ist.psu.edu/viewdoc/summary' + href[
                href.find('?'):]
            urlt = URL(urlt)
            urlt.open()
            print ' -> ', urlt.get_url()
            if (urlt.status_ok()):
                # print tr.find('p', {'class': 'citationContext'})
                if tr.find('p', {'class': 'citationContext'}):
                    context = tr.find('p', {
                        'class': 'citationContext'
                    }).findAll(text=True)[0]
                else:
                    context = ''
                if not db.exists('citations', {
                        'doi_f': url.get_doi(),
                        'doi_t': urlt.get_doi()
                }):
                    db.insert(
                        'citations', {
                            'doi_f': url.get_doi(),