Exemplos de Tokenizer.tokenize_paragraph em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: somajo

Classe / Tipo: Tokenizer

Método / Função: tokenize_paragraph

Exemplos em hotexamples.com: 3

Tokenizer.tokenize_paragraph em Python - 3 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de somajo.Tokenizer.tokenize_paragraph em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Tokenizer(16)

tokenize(12)

tokenize_paragraph(3)

tokenize_xml(2)

_tokenize(1)

Métodos Frequentes

Tokenizer (16)

tokenize (12)

tokenize_paragraph (3)

tokenize_xml (2)

_tokenize (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: app.py Projeto: qurator-spk/sbb_ner

class NERTokenizer: def __init__(self): self._word_tokenizer = Tokenizer(split_camel_case=True, token_classes=False, extra_info=False) self._sentence_splitter = SentenceSplitter() def parse_text(self, text): tokens = self._word_tokenizer.tokenize_paragraph(text) sentences_tokenized = self._sentence_splitter.split(tokens) sentences = [] for sen in sentences_tokenized: sen = [tok.replace(" ", "") for tok in sen] if len(sen) == 0: continue sentences.append((sen, [])) return sentences

Exemplo n.º 2

0

Exibir arquivo

Arquivo: 05_lemma.py Projeto: jfilter/ptf-kommentare

def get_sents(texts): tokenizer = Tokenizer(split_camel_case=True, token_classes=False, extra_info=False) sentence_splitter = SentenceSplitter(is_tuple=False) results = [] for text in texts: # text = clean(text, lang='de', lower=False) tokens = tokenizer.tokenize_paragraph(text) sentences = sentence_splitter.split(tokens) cleaned = [clean(' '.join(s), no_urls=True, no_digits=True, no_punct=True, no_line_breaks=True, lang='de') for s in sentences] results.append(cleaned) return results

Exemplo n.º 3

0

Exibir arquivo

Arquivo: helpfunctions.py Projeto: VarnithChordia/Multlingual_Punctuation_restoration

def predict(input_text, model = learner): # input_txt = "" doc = nlp(input_text) if 'en' in doc._.language['language']: tokenizer = Tokenizer(language="en") input_txt = ' '.join(token for token in tokenizer.tokenize_paragraph(input_text) if token not in [',', '.', '?', '!']) labels = 'BOS ' * len(tokenizer.tokenize_paragraph(input_txt)) elif 'de' in doc._.language['language']: tokenizer = Tokenizer(split_camel_case=True, token_classes=False, extra_info=False) input_txt = ' '.join(token for token in tokenizer.tokenize_paragraph(input_text) if token not in [',', '.', '?', '!']) labels = 'BOS ' * len(tokenizer.tokenize_paragraph(input_txt)) elif 'fr' in doc._.language['language']: tokenizer = Tokenizer(language="en") input_txt = re.sub(r'[,.?!]', '', input_text).strip() labels = 'BOS ' * len(tokenizer.tokenize_paragraph(input_txt)) else: tokenizer = Tokenizer(language="en") input_txt = re.sub(r'[,.?!]', '', input_text).strip() labels = 'BOS ' * len(tokenizer.tokenize_paragraph(input_txt)) if not input_txt: return input_txt ## Assigning random language language = 'English' X = pd.DataFrame([(input_txt, labels, language)], columns=['Sentences', 'labels', 'language']) X.to_csv('/data/vchordia/sen_boundary/X.csv', index=False) dl = get_data_loader_for_predict(data, df_path="/data/vchordia/sen_boundary/X.csv") preds = learner.predict(dl) pred_tokens, pred_labels = bert_labels2tokens(dl, preds[0]) res_str = final_str(pred_tokens, pred_labels) return res_str