Esempi in Python per TfidfVectorizer.cate_set

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: sklearn.feature_extraction.text

Classe/tipologia: TfidfVectorizer

Metodo/funzione: cate_set

Esempi su hotexamples.com: 1

TfidfVectorizer.cate_set in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per sklearn.feature_extraction.text.TfidfVectorizer.cate_set, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

fit(30)

get_stop_words(30)

TfidfVectorizer(30)

fit_transform(30)

get_feature_names(30)

inverse_transform(30)

build_analyzer(30)

build_tokenizer(29)

get_params(29)

get_feature_names_out(14)

__init__(12)

idf_(11)

build_preprocessor(8)

max_features(8)

_validate_vocabulary(3)

max_df(3)

fir(2)

N_(2)

fit_on_texts(2)

build_vocab(2)

decode(2)

_tfidf(2)

decode_error(1)

append(1)

_document_frequency(1)

_get_param_names(1)

kneighbors(1)

join(1)

_stop_words_id(1)

inv_vocabulary_(1)

input(1)

infer_vector(1)

idx_target_cache(1)

get_word_net_feature_vecs(1)

bert(1)

get_shape(1)

encode(1)

get_feautre_names(1)

cate_set(1)

get_feature_name(1)

fit_transfrorm(1)

fit_transfrom(1)

count(1)

fit_trainsform(1)

count_args(1)

count_chunks(1)

encoding(1)

mean(1)

Esempio n. 1

Mostra file

File: text_train2.py Progetto: huangrs494/classify

def get_num(train_file, model_road=u"../april_model"):
    cate1 = list()
    data = list()
    with codecs.open(train_file, "r", "utf-8") as fr:
        for line in fr:
            line1 = line.strip().split("\t", 2)
            cate1.append(line1[1])
            one_data = " ".join(jieba.cut(line1[2]))
            data.append(one_data)
    cate_set = list(set(cate1))  # 标签的集合
    cate = [cate_set.index(cat) for cat in cate1]  # 根据集合转换为数字标签

    vectorizer = TfidfVectorizer(
        sublinear_tf=True, max_df=0.9, stop_words='english'
    )  #最大频率大于0.9的停用词删除。对数词频调整，sublinear_tf设置为true。文档转换成特征矩阵
    all_train_data = vectorizer.fit_transform(data)
    # for word, num in vectorizer.vocabulary_.iteritems():
    #     print word, num
    print len(vectorizer.vocabulary_.keys())
    vectorizer.cate_set = cate_set
    print " ".join(cate_set)

    if not os.path.exists(model_road):  # 如果不存在模型文件，则创建
        os.makedirs(model_road)
    tf_idf_file = os.path.join(model_road, "svmTFIDFModel.pkl")
    cPickle.dump(vectorizer, open(tf_idf_file, "wb"))  # 模型dump下来
    return all_train_data, cate