Python Tokenizer.clean_text 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

클래스/타입: Tokenizer

메소드/함수: clean_text

hotexamples.com에서의 예제들: 2

Python Tokenizer.clean_text - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.Tokenizer.clean_text에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

예제 #1

파일 보기

def corretor_string(frase):
    frase_corrigida = []
    tokenizer = Tokenizer()
    #token_frase =  word_tokenize(frase)
    token_frase = tokenizer.tokenize(tokenizer.clean_text(frase))
    #print(f"token_frase: {token_frase}")
    for palavra in token_frase:
        if palavra in vocab:
            frase_corrigida.append(palavra)
        else:
            candidatos = []
            candidatos += \
                [w for w in edit1(palavra) if w in vocab] \
                + [w for w in edit2(palavra) if w in vocab] \
                + [palavra]
            candidatos_final = candidatos_ordenado(candidatos)
            frase_corrigida.append(candidatos_final[0])

    frase_corrigida_final = str()
    for palavra in frase_corrigida:
        frase_corrigida_final += palavra + " "

    return print(f"Sua frase corrigida é:{frase_corrigida_final}")

예제 #2

파일 보기

my_file = os.path.join(THIS_FOLDER,"dump_small.jsonln")
# Read json file
data = []
with open(my_file, 'r') as file:
    for line in file:
        data.append(json.loads(line))
        
print(f'Numero de documentos: {len(data)}')


tokenizer = Tokenizer()

# Limpando todos os docs
all_cleaned_docs = []
for wiki_body in data[:]:
    all_cleaned_docs.append(tokenizer.clean_text(wiki_body["body"]))

#Tokenizando as palavras
nltk.download('punkt')

#Contando o numero de palavras
all_words_per_doc = []
for cleaned_doc in all_cleaned_docs:
    all_words_per_doc.append(word_tokenize(cleaned_doc))

all_words_per_doc_single = list()
for doc in all_words_per_doc:
    all_words_per_doc_single += set(doc)

doc_counts = Counter(all_words_per_doc_single)