Python RowMatrix.computeCovariance 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.mllib.linalg.distributed

클래스/타입: RowMatrix

메소드/함수: computeCovariance

hotexamples.com에서의 예제들: 3

Python RowMatrix.computeCovariance - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.mllib.linalg.distributed.RowMatrix.computeCovariance에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

RowMatrix(30)

columnSimilarities(7)

computeColumnSummaryStatistics(4)

computeCovariance(3)

computeGramianMatrix(1)

예제 #1

파일 보기

def within_group_scatter(data: pyspark.sql.DataFrame, features, response,
                         targets):
    p = len(features)
    sw = numpy.zeros((p, p))
    for target in targets:
        df_t = data.filter("{} == '{}'".format(response, target))
        X_t = RowMatrix(df_t.select(features).rdd.map(numpy.array))
        sw += X_t.computeCovariance().toArray() * (df_t.count() - 1)
    return sw

예제 #2

파일 보기

파일: model.py 프로젝트: brettbevers/miner

    def get_gmm(self, k, sample_fraction=None, retry=True):
        if k == 1:
            if sample_fraction:
                data = self.mllib_training_data.sample(False, sample_fraction)
            else:
                data = self.mllib_training_data
            row_matrix = RowMatrix(data)
            mean = row_matrix.computeColumnSummaryStatistics().mean()
            cov = row_matrix.computeCovariance().toArray()
            weights = [1.0]
            gaussians = [Gaussian(mean, cov)]
            log_likelihood = None
        else:
            m = self.fit_ml_model(k,
                                  sample_fraction=sample_fraction,
                                  retry=retry)
            weights = m.weights
            gaussians = [
                Gaussian(g.mean, g.cov.toArray())
                for g in m.gaussiansDF.collect()
            ]
            log_likelihood = m.summary.logLikelihood

        return GaussianMixtureModel(weights, gaussians, log_likelihood)

예제 #3

파일 보기

#matrix = Matrices.dense(nrows, ncols, rdd)
print("ncol: %d, nrow %d" % (ncols, nrows))
coord_mat = CoordinateMatrix(rdd.map(tuple))
print("num rows in matrix %d" % coord_mat.numRows())

print("finished using pyspark")
#________________________________________________-

print("now use SparkSession")

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df_2 = spark.read.option("delimiter", " ").csv('./data/lpi_ceria3d_b.mtx',
                                               header=False,
                                               inferSchema=True)
df_2.printSchema()

#coord_mat_2 = CoordinateMatrix(df_2.rdd.map(tuple))
row_mat = RowMatrix(df_2.rdd.map(tuple))
print("num rows in row matrix %d, num_cols %d" %
      (row_mat.numRows(), row_mat.numCols()))

print("print covariance")
print(row_mat.computeCovariance())

dm = Matrices.dense(3, 1, [4, 5, 6])

print("multiply row Matrix")
result = row_mat.multiply(dm)