Python Tokenizer.get_token_count 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

클래스/타입: Tokenizer

메소드/함수: get_token_count

hotexamples.com에서의 예제들: 1

Python Tokenizer.get_token_count - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.Tokenizer.get_token_count에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

예제 #1

파일 보기

파일: features.py 프로젝트: jperelshteyn/tr_challenge

    def add_tfidf(self):
        
        print 'calculating tfidf...'

        token_tfidf = TFIDF('token')
        bi_gram_tfidf = TFIDF('bi_gram')
        
        texts = self.df['body']
        
        # tfidf_df = pd.DataFrame(columns=token_tfidf.terms)
        tfidf_df = pd.DataFrame(columns=token_tfidf.terms + bi_gram_tfidf.terms)
        
        is_from_sql = ('_data_source' in self.df.columns)
        token_dict = get_token_dict() if is_from_sql else None

        count = 0
        for i, text in enumerate(texts):

            if i > 0 and i % 500 == 0:
                print i, 'rows'

            if text:
                token_freqs = None
                bi_gram_freqs = None
                
                if is_from_sql:
                    sql_tbl_id, sql_id = self.df._data_source[i], self.df._id[i]
                    token_freqs, bi_gram_freqs = get_freqs(sql_tbl_id, sql_id, token_dict)
                else:
                    tokenizer = Tokenizer(text)
                    token_freqs = tokenizer.get_token_count()
                    bi_gram_freqs = tokenizer.get_n_gram_count(2, True)
                
                row = token_tfidf.get_tfidf(token_freqs) + bi_gram_tfidf.get_tfidf(bi_gram_freqs)
                tfidf_df.loc[i] = row
                # tfidf_df.loc[i] = token_tfidf.get_tfidf(token_freqs)
                count = i+1
        self.df = pd.concat([self.df, tfidf_df], axis=1)
        print "tfidf'd", count, 'rows'