Exemplos de WordPunctuationTokenizer em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: collatex.core_classes

Exemplos em hotexamples.com: 6

WordPunctuationTokenizer em Python - 6 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de collatex.core_classes.WordPunctuationTokenizer em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

WordPunctuationTokenizer(2)

tokenize(1)

Métodos Frequentes

WordPunctuationTokenizer (2)

tokenize (1)

Relacionados

SpecialQuestGroup

_

Utils

DataSourceOpenStack

init_tf_stamped

UIAElementInfo

create_TemporalGraph

query

get_dataset_xsec_effic

get_ip_addresses

Related in langs

CategoriaEmpresa (PHP)

FilesCommittedStub (PHP)

Question (C#)

PersonsDatabase (C#)

mwSametimeList_findGroup (C++)

c_variant_write (C++)

CherryPick (Go)

Post (Go)

ProposalAttributeDao (Java)

Function (Java)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: xml_tokenization.py Projeto: DiXiT-eu/collatex-tutorial

def tokenize_plain_text_file(plain_text_file): tokenizer = WordPunctuationTokenizer() with plain_text_file as f: for line in f: for token in tokenizer.tokenize(line): yield token

Exemplo n.º 2

0

Exibir arquivo

writer.writerow(['Original', 'Normalised']) for row in reader: key = (row[0], row[1]) if key not in entries: writer.writerow(row) entries.add(key) ############################################################################################# ############################################################################################# ############################################################################################# #read in the witnesses from your file system from collatex.core_classes import WordPunctuationTokenizer tokenizer = WordPunctuationTokenizer() # build a function to tokenize and to normalize by replace keys to be found in # the dictionary by the corresponding values def tokennormalizer(witness): tokens_as_strings = tokenizer.tokenize(witness) list = [] for token_string in tokens_as_strings: normversion = re.sub(r'\s+$', "", token_string) replaceversion = Normit.get(normversion, normversion) list.append({'t': token_string, 'n': replaceversion}) return (list)

Exemplo n.º 3

0

Exibir arquivo

Arquivo: test_collatex_simple.py Projeto: ljo/collatex

def test_tokenize(self): contents = "a b c" tokenizer = WordPunctuationTokenizer() #print contents self.assertEquals(["a ","b ","c"], tokenizer.tokenize(contents))

Exemplo n.º 4

0

Exibir arquivo

def tokens(self): #print("COLLATION TOKENIZE IS CALLED!") #TODO: complete set of witnesses is retokenized here! tokenizer = WordPunctuationTokenizer() tokens = tokenizer.tokenize(self.get_combined_string()) return tokens

Exemplo n.º 5

0

Exibir arquivo

Arquivo: xml_tokenization.py Projeto: DiXiT-eu/collatex-tutorial

def tokenize_text_node(text_node): # split on whitespace, punctuation and numerical values tokenizer = WordPunctuationTokenizer() return tokenizer.tokenize(text_node.data)

Exemplo n.º 6

0

Exibir arquivo

Arquivo: test_collatex_simple.py Projeto: zebraft/collatex

def test_tokenize(self): contents = "a b c" tokenizer = WordPunctuationTokenizer() #print contents self.assertEqual(["a ","b ","c"], tokenizer.tokenize(contents))