Esempi in Python per TfidfVectorizer.input

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: sklearn.feature_extraction.text

Classe/tipologia: TfidfVectorizer

Metodo/funzione: input

Esempi su hotexamples.com: 1

TfidfVectorizer.input in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per sklearn.feature_extraction.text.TfidfVectorizer.input, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

fit(30)

get_stop_words(30)

TfidfVectorizer(30)

fit_transform(30)

get_feature_names(30)

inverse_transform(30)

build_analyzer(30)

build_tokenizer(29)

get_params(29)

get_feature_names_out(14)

__init__(12)

idf_(11)

build_preprocessor(8)

max_features(8)

_validate_vocabulary(3)

max_df(3)

fir(2)

N_(2)

fit_on_texts(2)

build_vocab(2)

decode(2)

_tfidf(2)

decode_error(1)

append(1)

_document_frequency(1)

_get_param_names(1)

kneighbors(1)

join(1)

_stop_words_id(1)

inv_vocabulary_(1)

input(1)

infer_vector(1)

idx_target_cache(1)

get_word_net_feature_vecs(1)

bert(1)

get_shape(1)

encode(1)

get_feautre_names(1)

cate_set(1)

get_feature_name(1)

fit_transfrorm(1)

fit_transfrom(1)

count(1)

fit_trainsform(1)

count_args(1)

count_chunks(1)

encoding(1)

mean(1)

Esempio n. 1

Mostra file

File: blog_search.py Progetto: zywang0306/blogsearch

def train_tf_idf(file_list, **kwargs):
    # Default params
    tf_idf_params = {
        'input': 'filename', 
        'encoding': 'utf-8',
        'decode_error': 'replace',
        'strip_accents': 'unicode', 
        'lowercase': True,
        'analyzer': 'word',
        'stop_words': 'english', 
        'token_pattern': r'(?u)\b[a-zA-Z_][a-zA-Z0-9_]+\b',
        'ngram_range': (1, 2),
        'max_features':  5000, 
        'norm': 'l2',
        'use_idf': True,
        'smooth_idf': True,
        'sublinear_tf': True,
        'max_df': 1.0,
        'min_df': 1}
    
    # Update with kwargs if any
    tf_idf_params.update(kwargs)
    
    train_list = list(file_list) # creates copy
    shuffle(train_list)
    
    # compute tfidf vectors with scikits
    vectorizer = TfidfVectorizer(**tf_idf_params)
    vectorizer.fit(train_list)
    tf_idf_matrix = vectorizer.fit_transform(file_list)
    
    # CHange input type to content (string) dfor later
    vectorizer.input = 'content'
    
    return vectorizer, tf_idf_matrix