Python safe_decode示例

编程语言: Python

命名空间/包名称: postal.text.encoding

方法/功能: safe_decode

hotexamples.com的示例: 9

Python safe_decode - 已找到9个示例。这些是从开源项目中提取的最受好评的postal.text.encoding.safe_decode现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

def normalized_tokens(s, string_options=DEFAULT_STRING_OPTIONS,
                      token_options=DEFAULT_TOKEN_OPTIONS,
                      strip_parentheticals=True):
    '''
    Normalizes a string, tokenizes, and normalizes each token
    with string and token-level options.

    This version only uses libpostal's deterministic normalizations
    i.e. methods with a single output. The string tree version will
    return multiple normalized strings, each with tokens.

    Usage:
        normalized_tokens(u'St.-Barthélemy')
    '''
    s = safe_decode(s)
    if string_options & _normalize.NORMALIZE_STRING_LATIN_ASCII:
        normalized = _normalize.normalize_string_latin(s, string_options)
    else:
        normalized = _normalize.normalize_string_utf8(s, string_options)

    # Tuples of (offset, len, type)
    raw_tokens = tokenize_raw(normalized)
    tokens = [(_normalize.normalize_token(normalized, t, token_options),
               token_types.from_id(t[-1])) for t in raw_tokens]

    if strip_parentheticals:
        return remove_parens(tokens)
    else:
        return tokens

示例#2

显示文件

文件： parser.py 项目： nvkelso/libpostal

def parse_address(address, language=None, country=None):
    '''
    @param address: the address as either Unicode or a UTF-8 encoded string
    @param language (optional): language code
    @param country (optional): country code
    '''
    address = safe_decode(address, 'utf-8')
    return _parser.parse_address(address, language=language, country=country)

示例#3

显示文件

文件： parser.py 项目： pombredanne/libpostal

def parse_address(address, language=None, country=None):
    '''
    @param address: the address as either Unicode or a UTF-8 encoded string
    @param language (optional): language code
    @param country (optional): country code
    '''
    address = safe_decode(address, 'utf-8')
    return _parser.parse_address(address, language=language, country=country)

示例#4

显示文件

文件： expand.py 项目： nvkelso/libpostal

def expand_address(address, languages=DEFAULT_LANGUAGES, **kw):
    '''
    @param address: the address as either Unicode or a UTF-8 encoded string
    @param languages: a tuple or list of ISO language code strings (e.g. "en", "fr", "de", etc.)
                      to use in expansion. Default is English. Until automatic language classification
                      is ready in libpostal, this parameter is required.

    '''
    address = safe_decode(address, 'utf-8')
    return _expand.expand_address(address, languages=languages, **kw)

示例#5

显示文件

文件： expand.py 项目： pombredanne/libpostal

def expand_address(address, languages=DEFAULT_LANGUAGES, **kw):
    '''
    @param address: the address as either Unicode or a UTF-8 encoded string
    @param languages: a tuple or list of ISO language code strings (e.g. "en", "fr", "de", etc.)
                      to use in expansion. Default is English. Until automatic language classification
                      is ready in libpostal, this parameter is required.

    '''
    address = safe_decode(address, 'utf-8')
    return _expand.expand_address(address, languages=languages, **kw)

示例#6

显示文件

文件： tokenize.py 项目： nvkelso/libpostal

def tokenize(s):
    u = safe_decode(s)
    s = safe_encode(s)
    return [(safe_decode(s[start:start + length]), token_types.from_id(token_type))
            for start, length, token_type in _tokenize.tokenize(u)]

示例#7

显示文件

文件： tokenize.py 项目： nvkelso/libpostal

def tokenize_raw(s):
    return _tokenize.tokenize(safe_decode(s))

示例#8

显示文件

文件： tokenize.py 项目： pombredanne/libpostal

def tokenize(s):
    u = safe_decode(s)
    s = safe_encode(s)
    return [(safe_decode(s[start:start + length]),
             token_types.from_id(token_type))
            for start, length, token_type in _tokenize.tokenize(u)]

示例#9

显示文件

文件： tokenize.py 项目： pombredanne/libpostal

def tokenize_raw(s):
    return _tokenize.tokenize(safe_decode(s))