Ejemplos de normalize en Python

Lenguaje de programación: Python

Namespace/Package Name: standalone_nlp.lang_en.en_nl

Método / Función: normalize

Ejemplos en hotexamples.com: 4

Python normalize - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de standalone_nlp.lang_en.en_nl.normalize extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Ejemplo n.º 1

Mostrar archivo

Archivo: utils.py Proyecto: Web5design/twittermap

def english_window(words, wsize=2):
    words = filter(None, ( re.sub(r"[^A-Za-z0-9' -]", '', w) for w in words ))
    for x in xrange(len(words) - wsize + 1):
        pair = ' '.join(words[x:x+wsize])
        caps = ''.join( w[0] for w in pair.split() )
        norm = en_nl.normalize(pair)
        if norm and ( ( '@' not in caps and caps.upper() == caps and pair.upper() != pair ) or norm in concepts ):
            yield norm.lower()

Ejemplo n.º 2

Mostrar archivo

Archivo: utils.py Proyecto: imclab/twittermap

def english_window(words, wsize=2):
    words = filter(None, (re.sub(r"[^A-Za-z0-9' -]", '', w) for w in words))
    for x in xrange(len(words) - wsize + 1):
        pair = ' '.join(words[x:x + wsize])
        caps = ''.join(w[0] for w in pair.split())
        norm = en_nl.normalize(pair)
        if norm and (('@' not in caps and caps.upper() == caps
                      and pair.upper() != pair) or norm in concepts):
            yield norm.lower()

Ejemplo n.º 3

Mostrar archivo

Archivo: utils.py Proyecto: Web5design/twittermap

def clean_twitter(phrase):
    phrase = re.sub(r'(.)\1{2,}', r'\1\1', re.sub(r'[^\x00-\x7f]', ' ', phrase))
    if is_bad_word(phrase.lower()):
        return
    parts = en_nl.tokenize(phrase).split()
    for part in itertools.chain(parts, english_window(parts)):
        if part.startswith(('#', '@', 'http:')):
            yield part
        elif part.strip() and part != 'rt' and not en_nl.is_stopword(part):
            part = en_nl.normalize(part).strip('-')
            if part.strip():
                yield part

Ejemplo n.º 4

Mostrar archivo

Archivo: utils.py Proyecto: imclab/twittermap

def clean_twitter(phrase):
    phrase = re.sub(r'(.)\1{2,}', r'\1\1', re.sub(r'[^\x00-\x7f]', ' ',
                                                  phrase))
    if is_bad_word(phrase.lower()):
        return
    parts = en_nl.tokenize(phrase).split()
    for part in itertools.chain(parts, english_window(parts)):
        if part.startswith(('#', '@', 'http:')):
            yield part
        elif part.strip() and part != 'rt' and not en_nl.is_stopword(part):
            part = en_nl.normalize(part).strip('-')
            if part.strip():
                yield part