Python Tokenizer.add_format 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

클래스/타입: Tokenizer

메소드/함수: add_format

hotexamples.com에서의 예제들: 1

Python Tokenizer.add_format - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.Tokenizer.add_format에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

예제 #1

파일 보기

파일: main.py 프로젝트: ebeer/article-generator

#first element is the domain
#second is the class value of the article title h1 tag
#third is the class value of the article body tag
formats = [('foxnews.com', 'entry-title', 'article-text'),
           ('techcrunch.com', 'headline', 'body-copy'),
           ('nbcnews.com', 'gl_headline', 'articleText')]




if __name__ == '__main__':

    tokenizer = Tokenizer()

    for pattern in formats:
        tokenizer.add_format(*pattern)
        
    if len(sys.argv) > 1:
        filename = sys.argv[1]
    else:
        filename = 'foxNewsInputSet.txt'
        
    if '.' in filename:
        output_file = filename[:filename.index('.') +1] + 'json'
    else:
        output_file = filename + '.json'
        
  
    url_list = [ x.strip('\n') for x in open(filename) ]

    #initialize our list for the tokenized content