Python TfidfVectorizer.max_features 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: sklearn.feature_extraction.text

클래스/타입: TfidfVectorizer

메소드/함수: max_features

hotexamples.com에서의 예제들: 10

Python TfidfVectorizer.max_features - 10개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 sklearn.feature_extraction.text.TfidfVectorizer.max_features에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

fit(30)

get_stop_words(30)

TfidfVectorizer(30)

fit_transform(30)

get_feature_names(30)

inverse_transform(30)

build_analyzer(30)

build_tokenizer(29)

get_params(29)

get_feature_names_out(14)

__init__(12)

idf_(11)

build_preprocessor(8)

max_features(8)

_validate_vocabulary(3)

max_df(3)

fir(2)

N_(2)

fit_on_texts(2)

build_vocab(2)

decode(2)

_tfidf(2)

decode_error(1)

append(1)

_document_frequency(1)

_get_param_names(1)

kneighbors(1)

join(1)

_stop_words_id(1)

inv_vocabulary_(1)

input(1)

infer_vector(1)

idx_target_cache(1)

get_word_net_feature_vecs(1)

bert(1)

get_shape(1)

encode(1)

get_feautre_names(1)

cate_set(1)

get_feature_name(1)

fit_transfrorm(1)

fit_transfrom(1)

count(1)

fit_trainsform(1)

count_args(1)

count_chunks(1)

encoding(1)

mean(1)

예제 #1

파일 보기

파일: estimator.py 프로젝트: takeru-nitta/auction

    def to_vector(self, title_list):

        vectorizer = TfidfVectorizer(analyzer=analyzer, max_df=self.MAX_DF)
        vectorizer.max_features = self.MAX_FEATURES
        vectorizer.fit(title_list)
        tf = vectorizer.transform(title_list)

        lsa = TruncatedSVD(self.LSA_DIM)
        lsa.fit(tf)
        tf = lsa.transform(tf)
        return tf, vectorizer, lsa

예제 #2

파일 보기

파일: utils.py 프로젝트: nguyentuc/chatbot_v4_21-10

def get_keywords(docs, max_feature, stopwords=None):
    vectorizer = TfidfVectorizer(max_features=max_feature,
                                 min_df=3,
                                 stop_words=stopwords)
    try:
        vectorizer.fit(docs)
    except:
        vectorizer.min_df = 1
        vectorizer.max_features = 30
        vectorizer.fit(docs)
    return vectorizer.vocabulary_

예제 #3

파일 보기

파일: estimator.py 프로젝트: takeru-nitta/auction

 def to_vector(self, title_list):
     
     vectorizer = TfidfVectorizer(analyzer=analyzer, max_df=self.MAX_DF)
     vectorizer.max_features = self.MAX_FEATURES       
     vectorizer.fit(title_list)
     tf = vectorizer.transform(title_list)
     
     lsa = TruncatedSVD(self.LSA_DIM)
     lsa.fit(tf)
     tf = lsa.transform(tf)
     return tf, vectorizer, lsa

예제 #4

파일 보기

파일: clustering.py 프로젝트: takeru-nitta/auction

 def to_vector(self, text_set, MAX_DF, MAX_FEATURES, LSA_DIM):
     '''
     bag of words に変換、次元削減    
     '''
     
     vectorizer = TfidfVectorizer(analyzer=analyzer ,max_df=MAX_DF, stop_words = stopwords)
     vectorizer.max_features = MAX_FEATURES
     X = vectorizer.fit_transform(text_set)
     lsa= TruncatedSVD(LSA_DIM)
     X = lsa.fit_transform(X)
     
     return X, lsa, vectorizer

예제 #5

파일 보기

def transform_data(filename,MAX_DF = 0.9, MAX_FEATURES = 500, LSA_DIM = 100):
    '''mecabのテンプレート、ファイルを読み込み、タイトルを形態素解析して次元圧縮して正規化かする。戻り値はデータセットとタイトルの行列'''
    data = pd.read_csv(filename)
    title = []
    for i in data.index:
        title.append(data.ix[i, 'Title'].decode('utf-8'))
    
    vectorizer = TfidfVectorizer(analyzer=analyzer ,max_df=MAX_DF, stop_words = stopwords)
    vectorizer.max_features = MAX_FEATURES
    X = vectorizer.fit_transform(title)
    lsa= TruncatedSVD(LSA_DIM)
    X = lsa.fit_transform(X)
    X = Normalizer(copy=False).fit_transform(X)

    return data,X

예제 #6

파일 보기

파일: snippet.py 프로젝트: szabo92/gistable

def main(filename):
    # load tweets
    tweets = get_tweets_from_csv(filename)

    # feature extraction
    vectorizer = TfidfVectorizer(analyzer=analyzer, max_df=MAX_DF)
    vectorizer.max_features = MAX_FEATURES
    X = vectorizer.fit_transform(tweets)

    # dimensionality reduction by LSA
    lsa = TruncatedSVD(LSA_DIM)
    X = lsa.fit_transform(X)
    X = Normalizer(copy=False).fit_transform(X)

    # clustering by KMeans
    if MINIBATCH:
        km = MiniBatchKMeans(n_clusters=NUM_CLUSTERS,
                             init='k-means++',
                             batch_size=1000,
                             n_init=10,
                             max_no_improvement=10,
                             verbose=True)
    else:
        km = KMeans(n_clusters=NUM_CLUSTERS,
                    init='k-means++',
                    n_init=1,
                    verbose=True)
    km.fit(X)
    labels = km.labels_

    transformed = km.transform(X)
    dists = np.zeros(labels.shape)
    for i in range(len(labels)):
        dists[i] = transformed[i, labels[i]]

    # sort by distance
    clusters = []
    for i in range(NUM_CLUSTERS):
        cluster = []
        ii = np.where(labels == i)[0]
        dd = dists[ii]
        di = np.vstack([dd, ii]).transpose().tolist()
        di.sort()
        for d, j in di:
            cluster.append(tweets[int(j)])
        clusters.append(cluster)

    return clusters

예제 #7

파일 보기

	def handle(self, *args, **options):
		# tweets
		ret    = Timeline.objects.all()[:100]
		tweets = [r.body for r in ret]
		
		# feature extraction
		vectorizer = TfidfVectorizer(analyzer = self.__analyzer, max_df = MAX_DF)
		vectorizer.max_features = MAX_FEATURES
		x = vectorizer.fit_transform(tweets)

		# dimensionality reduction by LSA
		lsa = TruncatedSVD(LSA_DIM)
		x= lsa.fit_transform(x)
		x= Normalizer(copy=False).fit_transform(x)

		# clustering by KMeans
		if MINIBATCH:
			km = MiniBatchKMeans(n_clusters=NUM_CLUSTERS, init='k-means++',batch_size=1000,n_init=10,max_no_improvement=10)
		else:
			km = KMeans(n_clusters=NUM_CLUSTERS, init='k-means++', n_init=1)
		
		km.fit(x)
		labels = km.labels_

		transformed = km.transform(x)
		dists = np.zeros(labels.shape)
		for i in range(len(labels)):
			dists[i] = transformed[i, labels[i]]

		# sort by distance
		clusters = []
		for i in range(NUM_CLUSTERS):
			cluster = []
			ii = np.where(labels == i)[0]
			dd = dists[ii]
			di = np.vstack([dd,ii]).transpose().tolist()
			di.sort()
			for d, j in di:
				cluster.append(tweets[int(j)])
			clusters.append(cluster)

		for i,cluster in enumerate(clusters):
			for c in cluster:
				print "%s: %s" % (i,c)

예제 #8

파일 보기

파일: lessons_clustering.py 프로젝트: TakeumiYamamura/gci

def main(filename):
    # load tweets
    tweets = get_tweets_from_csv(filename)
    # print tweets
 
    # feature extraction
    vectorizer = TfidfVectorizer(analyzer=analyzer, max_df=MAX_DF)
    vectorizer.max_features = MAX_FEATURES
    X = vectorizer.fit_transform(tweets)
    # dimensionality reduction by LSA
    lsa = TruncatedSVD(LSA_DIM)
    X = lsa.fit_transform(X)
    X = Normalizer(copy=False).fit_transform(X)
 
    # clustering by KMeans
    if MINIBATCH:
        km = MiniBatchKMeans(n_clusters=NUM_CLUSTERS, init='k-means++', batch_size=1000, n_init=10, max_no_improvement=10, verbose=True)
    else:
        km = KMeans(n_clusters=NUM_CLUSTERS, init='k-means++', n_init=1, verbose=True)
    km.fit(X)
    labels = km.labels_
 
    transformed = km.transform(X)
    dists = np.zeros(labels.shape)
    for i in range(len(labels)):
        dists[i] = transformed[i, labels[i]]
 
    # sort by distance
    clusters = []
    for i in range(NUM_CLUSTERS):
        cluster = []
        ii = np.where(labels==i)[0]
        dd = dists[ii]
        di = np.vstack([dd,ii]).transpose().tolist()
        di.sort()
        for d, j in di:
            cluster.append(tweets[int(j)])
        clusters.append(cluster)
 
    return clusters

예제 #9

파일 보기

파일: test_word2vec.py 프로젝트: c1531958/Word-sense-disambiguation

    # preprocess the sentences
    train['sentence'] = preprocess(train)
    test['sentence'] = preprocess(test)

    # if there are enough training samples, even the label ratios out
    if train.shape[0] > 1000:
        train = training_sample(train)

    list_tokens = train['sentence'].apply(lambda x: x.split(' '))
    test_tokens = test['sentence'].apply(lambda x: x.split(' '))

    # if there are more than 1000 training samples, limit the max_features to 1000 as otherwise it will exceed memory
    # try tfidf
    vectorizer = TfidfVectorizer()
    if train.shape[0] > 1000:
        vectorizer.max_features = 1000
    vectorizer.fit(train['sentence'])
    selected_features = vectorizer.get_feature_names()

    # try bow
    # tokenizer = Tokenizer(num_words=1000, lower=True)
    # tokenizer.fit_on_texts(train['sentence'].values)
    # selected_features = list(tokenizer.word_index.keys())[:1000]

    # w2v
    model = Word2Vec(list_tokens, size=100, window=5, min_count=1)
    # fast text
    # model = FastText(size=100, window=3, min_count=1)
    # model.build_vocab(sentences=list_tokens)
    model.train(list_tokens, total_examples=len(list_tokens), epochs=30)

예제 #10

파일 보기

파일: naive_bayes.py 프로젝트: MehdiCHEBBAH/Analyse-des-sentiments-pour-les-commentaires-arabes

X = dataset.iloc[:, 1].values
y = dataset.iloc[:, 0].values

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=0)

# Applying TF-TDF
from sklearn.feature_extraction.text import TfidfVectorizer

v = TfidfVectorizer()
v.max_features = 5000
X_train = v.fit_transform(X_train).toarray()
X_test = v.transform(X_test).toarray()

# Fitting Naive Bayes to the Training set
from sklearn.naive_bayes import MultinomialNB  # GaussianNB

classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix