Python uparse Examples

Programming Language: Python

Namespace/Package Name: rfc3987

Method/Function: uparse

Examples at hotexamples.com: 2

Python uparse - 2 examples found. These are the top rated real world Python examples of rfc3987.uparse extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

File: unique_identifiers.py Project: Sandy4321/semantics-preprocessing

    def _verify_url(self, potential_url):
        # ugh
        if 'mailto:' in potential_url:
            return ''

        # is it a urn?
        pttn = re.compile(
            ur'^([a-z0-9]{0,}:[a-z0-9][a-z0-9-]{0,31}:[a-z0-9()+,\-.:=@;$_!*\'%/?#\[\]]+)',
            re.IGNORECASE
        )
        urn_m = match(potential_url, pttn)
        if urn_m:
            return ''

        # does it even have a scheme?
        try:
            u = uparse(potential_url, rule='URI')
            if not u.get('scheme'):
                # will consider the leading blob of a URN
                # a scheme even if we don't so this is not
                # 100% reliable
                return ''

            parts = potential_url.split(':', 1)
            if not parts[1].startswith('/') or len(parts) < 2:
                # so if it's our false urn scheme, we
                # say it has to be :// or it's not a url
                # and it has to have a split
                return ''
        except:
            return ''

        pttn = re.compile(ur"""(?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)/)(?:[^\s()<>{}\[\]]+|\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\))+(?:\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’])|(?:(?<!@)[a-z0-9]+(?:[.\-][a-z0-9]+)*[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)\b/?(?!@)))""", re.IGNORECASE)
        m = match(potential_url, pttn)
        if not m:
            return ''
        return potential_url

Example #2

Show file

File: grab_online_refs.py Project: b-cube/Response-Identification-Info

 for elem in elems:
     text = elem.text
     if not text:
         continue
     
     text = text.strip()
     
     # is it a valid URL and, you know, we're here so let's 
     # just make a little HEAD request to ask
     ref = {
         "url": text,
         "checked": datetime.now().isoformat()
     }
     
     try:
         u = uparse(text, rule='URI')
         
         if u['scheme'] == 'file':
             ref['error'] = 'file path'
             refs.append(ref)
             continue
     except:
         # it's not a valid scheme://location/path (http or otherwise)
         ref["error"] = 'probable local path'
         refs.append(ref)
         continue
     
     try:
         rsp = requests.head(text, timeout=30)
     except:
         ref["error"] = "HEAD request failed"