Python TfidfVectorizer.get_word_net_feature_vecs Beispiele

Programmiersprache: Python

Namespace / Paketname: sklearn.feature_extraction.text

Klasse / Typ: TfidfVectorizer

Methode / Funktion: get_word_net_feature_vecs

Beispiele auf hotexamples.com: 2

Python TfidfVectorizer.get_word_net_feature_vecs - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die sklearn.feature_extraction.text.TfidfVectorizer.get_word_net_feature_vecs, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

fit(30)

get_stop_words(30)

TfidfVectorizer(30)

fit_transform(30)

get_feature_names(30)

inverse_transform(30)

build_analyzer(30)

build_tokenizer(29)

get_params(29)

get_feature_names_out(14)

__init__(12)

idf_(11)

build_preprocessor(8)

max_features(8)

_validate_vocabulary(3)

max_df(3)

fir(2)

N_(2)

fit_on_texts(2)

build_vocab(2)

decode(2)

_tfidf(2)

decode_error(1)

append(1)

_document_frequency(1)

_get_param_names(1)

kneighbors(1)

join(1)

_stop_words_id(1)

inv_vocabulary_(1)

input(1)

infer_vector(1)

idx_target_cache(1)

get_word_net_feature_vecs(1)

bert(1)

get_shape(1)

encode(1)

get_feautre_names(1)

cate_set(1)

get_feature_name(1)

fit_transfrorm(1)

fit_transfrom(1)

count(1)

fit_trainsform(1)

count_args(1)

count_chunks(1)

encoding(1)

mean(1)

Beispiel #1

Datei anzeigen

Datei: preprocess.py Projekt: keith471/comp599_final_proj

def get_X_train(data, wn=False, ignore=False, max_n_gram=1, lowercase=True, nopunc=False, lemmatize=False, stem=False, remove_stop_words=True, tfidf=False, verbose=True):

    if verbose:
        print('Using n-grams of up to %d words in length' % max_n_gram)

    if lowercase and verbose:
        print('Converting all text to lowercase')

    if lemmatize:
        tokenizer = LemmaTokenizer(nopunc)
        if verbose:
            print('Lemmatizing all words')
    elif stem:
        tokenizer = StemTokenizer(nopunc)
        if verbose:
            print('Stemming all words')
    else:
        tokenizer = None

    if remove_stop_words:
        stop_words = 'english'
        if verbose:
            print('Removing English stop words')
    else:
        stop_words = None

    t0 = time()
    if tfidf:
        if verbose:
            print()
            print('Extracting features from the test data using a tfidf vectorizer')
        vectorizer = TfidfVectorizer(lowercase=lowercase, tokenizer=tokenizer, stop_words=stop_words, ngram_range=(1, max_n_gram))
        X_train = vectorizer.fit_transform(data)
    else:
        if verbose:
            print('Extracting features from the test data using a count vectorizer')
        vectorizer = CountVectorizer(lowercase=lowercase, tokenizer=tokenizer, stop_words=stop_words, ngram_range=(1, max_n_gram))
        if wn:
            print('Learning a vocabulary dictionary with a count vectorizer')
            vectorizer.fit(data)
            print('Done learning vocabulary dictionary')
            vectorizer = WordNetVectorizer(vectorizer)
            print('Getting wordnet based feature vectors...')
            X_train = vectorizer.get_word_net_feature_vecs(data, ignore)
            print('Done getting wordnet based feature vectors')
        else:
            X_train = vectorizer.fit_transform(data)
    duration = time() - t0
    if verbose:
        data_train_size_mb = size_mb(data)
        print('done in %fs at %0.3fMB/s' % (duration, data_train_size_mb / duration))
        print('n_samples: %d, n_features: %d' % X_train.shape)
        print()
    return X_train, vectorizer

Beispiel #2

Datei anzeigen

def get_X_train(data,
                wn=False,
                ignore=False,
                max_n_gram=1,
                lowercase=True,
                nopunc=False,
                lemmatize=False,
                stem=False,
                remove_stop_words=True,
                tfidf=False,
                verbose=True):

    if verbose:
        print('Using n-grams of up to %d words in length' % max_n_gram)

    if lowercase and verbose:
        print('Converting all text to lowercase')

    if lemmatize:
        tokenizer = LemmaTokenizer(nopunc)
        if verbose:
            print('Lemmatizing all words')
    elif stem:
        tokenizer = StemTokenizer(nopunc)
        if verbose:
            print('Stemming all words')
    else:
        tokenizer = None

    if remove_stop_words:
        stop_words = 'english'
        if verbose:
            print('Removing English stop words')
    else:
        stop_words = None

    t0 = time()
    if tfidf:
        if verbose:
            print()
            print(
                'Extracting features from the test data using a tfidf vectorizer'
            )
        vectorizer = TfidfVectorizer(lowercase=lowercase,
                                     tokenizer=tokenizer,
                                     stop_words=stop_words,
                                     ngram_range=(1, max_n_gram))
        X_train = vectorizer.fit_transform(data)
    else:
        if verbose:
            print(
                'Extracting features from the test data using a count vectorizer'
            )
        vectorizer = CountVectorizer(lowercase=lowercase,
                                     tokenizer=tokenizer,
                                     stop_words=stop_words,
                                     ngram_range=(1, max_n_gram))
        if wn:
            print('Learning a vocabulary dictionary with a count vectorizer')
            vectorizer.fit(data)
            print('Done learning vocabulary dictionary')
            vectorizer = WordNetVectorizer(vectorizer)
            print('Getting wordnet based feature vectors...')
            X_train = vectorizer.get_word_net_feature_vecs(data, ignore)
            print('Done getting wordnet based feature vectors')
        else:
            X_train = vectorizer.fit_transform(data)
    duration = time() - t0
    if verbose:
        data_train_size_mb = size_mb(data)
        print('done in %fs at %0.3fMB/s' %
              (duration, data_train_size_mb / duration))
        print('n_samples: %d, n_features: %d' % X_train.shape)
        print()
    return X_train, vectorizer