Exemplos de WordPunctuationTokenizer.WordPunctuationTokenizer em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: collatex.core_classes

Método / Função: WordPunctuationTokenizer

Exemplos em hotexamples.com: 2

WordPunctuationTokenizer.WordPunctuationTokenizer em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de collatex.core_classes.WordPunctuationTokenizer.WordPunctuationTokenizer em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

WordPunctuationTokenizer(2)

tokenize(1)

Métodos Frequentes

WordPunctuationTokenizer (2)

tokenize (1)

Exemplo n.º 1

0

Exibir arquivo

writer.writerow(['Original', 'Normalised']) for row in reader: key = (row[0], row[1]) if key not in entries: writer.writerow(row) entries.add(key) ############################################################################################# ############################################################################################# ############################################################################################# #read in the witnesses from your file system from collatex.core_classes import WordPunctuationTokenizer tokenizer = WordPunctuationTokenizer() # build a function to tokenize and to normalize by replace keys to be found in # the dictionary by the corresponding values def tokennormalizer(witness): tokens_as_strings = tokenizer.tokenize(witness) list = [] for token_string in tokens_as_strings: normversion = re.sub(r'\s+$', "", token_string) replaceversion = Normit.get(normversion, normversion) list.append({'t': token_string, 'n': replaceversion}) return (list)

Exemplo n.º 2

0

Exibir arquivo

Arquivo: test_collatex_simple.py Projeto: zebraft/collatex

def test_tokenize(self): contents = "a b c" tokenizer = WordPunctuationTokenizer() #print contents self.assertEqual(["a ","b ","c"], tokenizer.tokenize(contents))