Python ArffJsonCorpus.toCsrMatrix примеры использования

Язык программирования: Python

Пространство имен/Пакет: main.arffJson.ArffJsonCorpus

Класс/Тип: ArffJsonCorpus

Метод/Функция: toCsrMatrix

Примеров на hotexamples.com: 4

Python ArffJsonCorpus.toCsrMatrix - 4 примера найдено. Это лучшие примеры Python кода для main.arffJson.ArffJsonCorpus.ArffJsonCorpus.toCsrMatrix, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

ArffJsonCorpus(2)

toCsrMatrix(2)

Основные методы

ArffJsonCorpus (2)

toCsrMatrix (2)

Пример #1

Показать файл

Файл: try_lda.py Проект: Zwackelmann/zb_math_cluster_experiments

from sklearn.decomposition import TruncatedSVD
from main.arffJson.ArffJsonCorpus import ArffJsonCorpus, ArffJsonDocument
import joblib
import numpy as np
from sklearn.cluster import KMeans

corpusFilepath = "/home/simon/Projekte/zbMathClustering/raw_vector.json"
corpus = ArffJsonCorpus(corpusFilepath)
TDM = corpus.toCsrMatrix(shapeCols = 54334)

"""svd = TruncatedSVD(n_components=250)
svd.fit(TDM)
joblib.dump(svd, "lsi250-model")"""

svd2 = joblib.load("lsi250-model")
LSI_TDM = svd2.transform(TDM)

km = KMeans(n_clusters=63, init='k-means++', max_iter=100, n_init=10)
km.fit(LSI_TDM)
joblib.dump(km, "km63-sklean_lsi250")

"""clModel = joblib.load("km63-sklean_lsi250")
# log = open("clusters-km63-sklearn_lsi250", "w")
log = open("foo", "w")
count = 0
for arr in LSI_TDM:
    # npArray = sparseData2Matrix(doc.data, len(index2chiIndex), index2chiIndex)
    log.write(doc.id + ";" + str(clModel.predict(npArray)[0]) + "\n")
    count += 1
log.close()"""

Пример #2

Показать файл

Файл: affinity_propagation.py Проект: Zwackelmann/zb_math_cluster_experiments

from sklearn.decomposition import TruncatedSVD
from main.arffJson.ArffJsonCorpus import ArffJsonCorpus, ArffJsonDocument
import joblib
import numpy as np
from sklearn.cluster import AffinityPropagation, MeanShift
from sklearn.mixture import GMM
import random

random.seed(0)

corpusFilepath = "raw_data/raw_vector.json"
corpus = ArffJsonCorpus(corpusFilepath)
TDM = corpus.toCsrMatrix(shapeCols=54334,
                         selection=lambda doc: True
                         if random.random() < 0.1 else False)
print "TDM shape: " + str(TDM.shape)

svd2 = joblib.load("models/lsi250-model")
LSI_TDM = svd2.transform(TDM)

#ap = AffinityPropagation(
#    damping=0.95,
#    max_iter=200,
#    convergence_iter=15,
#    copy=True,
#    preference=None,
#    affinity='euclidean',
#    verbose=False
#)

# ap.fit(LSI_TDM)

Пример #3

Показать файл

Файл: affinity_propagation.py Проект: Zwackelmann/zb_math_cluster_experiments

from sklearn.decomposition import TruncatedSVD
from main.arffJson.ArffJsonCorpus import ArffJsonCorpus, ArffJsonDocument
import joblib
import numpy as np
from sklearn.cluster import AffinityPropagation, MeanShift
from sklearn.mixture import GMM
import random

random.seed(0)

corpusFilepath = "raw_data/raw_vector.json"
corpus = ArffJsonCorpus(corpusFilepath)
TDM = corpus.toCsrMatrix(shapeCols = 54334, selection = lambda doc: True if random.random() < 0.1 else False)
print "TDM shape: " + str(TDM.shape)

svd2 = joblib.load("models/lsi250-model")
LSI_TDM = svd2.transform(TDM)

#ap = AffinityPropagation(
#    damping=0.95, 
#    max_iter=200, 
#    convergence_iter=15, 
#    copy=True, 
#    preference=None, 
#    affinity='euclidean', 
#    verbose=False
#)

# ap.fit(LSI_TDM)

"""ms = MeanShift(

Пример #4

Показать файл

Файл: try_lda.py Проект: Zwackelmann/zb_math_cluster_experiments

from sklearn.decomposition import TruncatedSVD
from main.arffJson.ArffJsonCorpus import ArffJsonCorpus, ArffJsonDocument
import joblib
import numpy as np
from sklearn.cluster import KMeans

corpusFilepath = "/home/simon/Projekte/zbMathClustering/raw_vector.json"
corpus = ArffJsonCorpus(corpusFilepath)
TDM = corpus.toCsrMatrix(shapeCols=54334)

"""svd = TruncatedSVD(n_components=250)
svd.fit(TDM)
joblib.dump(svd, "lsi250-model")"""

svd2 = joblib.load("lsi250-model")
LSI_TDM = svd2.transform(TDM)

km = KMeans(n_clusters=63, init="k-means++", max_iter=100, n_init=10)
km.fit(LSI_TDM)
joblib.dump(km, "km63-sklean_lsi250")

"""clModel = joblib.load("km63-sklean_lsi250")
# log = open("clusters-km63-sklearn_lsi250", "w")
log = open("foo", "w")
count = 0
for arr in LSI_TDM:
    # npArray = sparseData2Matrix(doc.data, len(index2chiIndex), index2chiIndex)
    log.write(doc.id + ";" + str(clModel.predict(npArray)[0]) + "\n")
    count += 1
log.close()"""