Python validate_url 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: validate_url

메소드/함수: validate_url

hotexamples.com에서의 예제들: 9

Python validate_url - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 validate_url.validate_url에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def test_remove_dupes(url):
    params = extract_params(url)
    validated_url = validate_url(url)
    validated_params = extract_params(validated_url)
    assert len(params) == len(validated_params)
    for p in params:
        assert (str(p) + "=" + str(params[p])) in validated_url

예제 #2

파일 보기

def test_remove_params(url, params_to_remove):
    validated_url = validate_url(url, params_to_remove)
    url_params = extract_params(url)
    for p in params_to_remove:
        if p in url_params:
            del url_params[p]
        else:
            pass
    validated_params = extract_params(validated_url)
    assert len(url_params) == len(validated_params)
    for u in url_params:
        assert u in validated_params

예제 #3

파일 보기

파일: DeploymentManager.py 프로젝트: samalba/image-spider

    def _deploy(self, job_id):
        """
        Deploy a spider to crawl the web. Use the DeploymentManager's enqueue
        method to specify which URLs to crawl. Depth should be assigned to each
        submitted URL prior to deployment.

        Arguments:
            job_id: intefer job id.

        Returns: None
        """

        if data.job_is_aborted(job_id):
            self._active = False
            self._queue = []
            return

        self._active = True
        queue_copy = self._queue[:]
        for index, url in enumerate(queue_copy):

            if data.job_is_aborted(job_id):
                break

            self._queue.remove(url)
            validated_url = validate_url(url)
            url = validated_url['url']
            webpage_info = data.get_webpage_info(url)

            if not claim(url):
                continue

            if not validated_url['valid']:
                continue

            # Ignore webpages crawled less than 15 min ago.
            if self._less_than_15_min_ago(webpage_info['completion_datetime']):
                continue

            # Database latency means depth is occasionally still unavailable.
            if not webpage_info['depth']:
                # Child URLs with no job_id and no depth have been deleted.
                if bool(data.redis.llen('reg:' + url)):
                    data.redis.set(url, 'ready')
                    self._queue.append(url)
                continue

            depth = webpage_info['depth'] - 1
            self._set_job_status(job_id, depth, index, len(queue_copy))
            self._fetch_and_parse(job_id, url, depth)
            time.sleep(self.delay)

        if data.job_is_aborted(job_id):
            self._active = False
            self._queue = []
        else:
            if len(self._queue):
                time.sleep(self.delay)
                self._deploy(job_id)
            else:
                self._set_job_status(job_id, -1, -1, 0, 'Complete')
                self._active = False

예제 #4

파일 보기

def test_convert_domain_suffix(url, expected):
    assert validate_url(url) == expected

예제 #5

파일 보기

def test_remove_non_existant_params():
    url = 'www.austintexas.gov?a=1&b=2&foo=bar&3=5&4=cats'
    validated_url = validate_url(url, ['cookie'])
    url_params = extract_params(url)
    validated_params = extract_params(validated_url)
    assert len(url_params) == len(validated_params)

예제 #6

파일 보기

def test_identity():
    assert validate_url("www.austintexas.gov") == "www.austintexas.gov"

예제 #7

파일 보기

파일: MyHtmlParser.py 프로젝트: samalba/image-spider

 def handle_a(self, href):
     if href:
         validated_href = validate_url(href, self.url)
         if validated_href['valid']:
             target = urldefrag(urljoin(self.url, validated_href['url']))[0]
             self.hyperlinks.append(target)

예제 #8

파일 보기

파일: DeploymentManager.py 프로젝트: samalba/image-spider

    def _deploy(self, job_id):

        """
        Deploy a spider to crawl the web. Use the DeploymentManager's enqueue
        method to specify which URLs to crawl. Depth should be assigned to each
        submitted URL prior to deployment.

        Arguments:
            job_id: intefer job id.

        Returns: None
        """

        if data.job_is_aborted(job_id):
            self._active = False
            self._queue = []
            return

        self._active = True
        queue_copy = self._queue[:]
        for index, url in enumerate(queue_copy):

            if data.job_is_aborted(job_id):
                break

            self._queue.remove(url)
            validated_url = validate_url(url)
            url = validated_url['url']
            webpage_info = data.get_webpage_info(url)

            if not claim(url):
                continue

            if not validated_url['valid']:
                continue

            # Ignore webpages crawled less than 15 min ago.
            if self._less_than_15_min_ago(webpage_info['completion_datetime']):
                continue

            # Database latency means depth is occasionally still unavailable.
            if not webpage_info['depth']:
                # Child URLs with no job_id and no depth have been deleted.
                if bool(data.redis.llen('reg:' + url)):
                    data.redis.set(url, 'ready')
                    self._queue.append(url)
                continue

            depth = webpage_info['depth'] - 1
            self._set_job_status(job_id, depth, index, len(queue_copy))
            self._fetch_and_parse(job_id, url, depth)
            time.sleep(self.delay)

        if data.job_is_aborted(job_id):
            self._active = False
            self._queue = []
        else:
            if len(self._queue):
                time.sleep(self.delay)
                self._deploy(job_id)
            else:
                self._set_job_status(job_id, -1, -1, 0, 'Complete')
                self._active = False

예제 #9

파일 보기

 def handle_a(self, href):
     if href:
         validated_href = validate_url(href, self.url)
         if validated_href['valid']:
             target = urldefrag(urljoin(self.url, validated_href['url']))[0]
             self.hyperlinks.append(target)