Python Lemmatizer.split_texts_to_lemmasの例

プログラミング言語: Python

名前空間/パッケージ名: twnews.utils.text_processors

クラス/型: Lemmatizer

メソッド/関数: split_texts_to_lemmas

hotexamples.comのコード掲載数: 1

Python Lemmatizer.split_texts_to_lemmas - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtwnews.utils.text_processors.Lemmatizer.split_texts_to_lemmasの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

split_text_to_lemmas(1)

split_texts_to_lemmas(1)

コード例 #1

ファイルを表示

ファイル: train_stage_1.py プロジェクト: art-vybor/twnews

from sklearn.feature_extraction.text import TfidfVectorizer

from twnews.dataset.storage import NewsStorage
from twnews.utils.text_processors import Lemmatizer

news_storage = news_storage = NewsStorage()
texts = news_storage.get_texts()

#constants
wm = 1e-2

# lemmatize
lemmatizer = Lemmatizer()
lemmas_list = lemmatizer.split_texts_to_lemmas(texts)
texts = [' '.join(lemma) for lemma in lemmas_list]

# build X and corpus
tvf = TfidfVectorizer()
tfidf_matrix = tvf.fit_transform(texts)

X = tfidf_matrix.transpose()
corpus = tvf.get_feature_names()

import numpy as np
from twnews.utils.timeit import timeit

@timeit
def build_weight_matrix(matrix):
    '''Slow and ugly realization TODO: rewrite'''
    F = X.copy().todense().tolist()
    W = []