Python VectorAssembler.getOutputCol 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml.feature

클래스/타입: VectorAssembler

메소드/함수: getOutputCol

hotexamples.com에서의 예제들: 3

Python VectorAssembler.getOutputCol - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.feature.VectorAssembler.getOutputCol에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

VectorAssembler(30)

getOutputCol(30)

transform(30)

getInputCols(19)

setInputCols(18)

setHandleInvalid(15)

select(11)

load(10)

setOutputCol(9)

randomSplit(7)

show(5)

explainParams(3)

join(2)

take(2)

setParams(2)

printSchema(2)

coalesce(2)

foreachPartition(2)

filter(2)

registerTempTable(1)

count(1)

cache(1)

dropna(1)

drop(1)

collect(1)

예제 #1

파일 보기

파일: training.py 프로젝트: Ousmane225/kickstarter-ids

def build_model(numerical_columns: List[str], categorical_columns: List[str],
                label_col: str, max_iter: int) -> Pipeline:

    indexing_stages = [build_string_indexer(c) for c in categorical_columns]
    indexed_columns = [s.getOutputCol() for s in indexing_stages]
    encoding_stages = [build_one_hot_encoder(c) for c in indexed_columns]

    vector_assembler = VectorAssembler() \
        .setInputCols(numerical_columns + [s.getOutputCol() for s in encoding_stages]) \
        .setOutputCol('features')

    gbt = GBTClassifier()\
        .setFeaturesCol(vector_assembler.getOutputCol())\
        .setLabelCol(label_col)

    return Pipeline()\
        .setStages(indexing_stages + encoding_stages + [vector_assembler, gbt])

예제 #2

파일 보기

파일: Session6.py 프로젝트: raul-arrabales/Spark-Hands-on

        onehotenc = OneHotEncoder(inputCol=c, outputCol=c+"-onehot", dropLast=False)
        newdf = onehotenc.transform(newdf).drop(c)
        newdf = newdf.withColumnRenamed(c+"-onehot", c)
    return newdf

dfhot = oneHotEncodeColumns(dfnumeric, ["Take-out","GoodFor_lunch", "GoodFor_dinner", "GoodFor_breakfast"])

dfhot.show(5)

# Taining set
assembler = VectorAssembler(inputCols = list(set(dfhot.columns) | set(['stars','review_count'])), outputCol="features")
train = assembler.transform(dfhot)

# Kmeans set for 5 clusters
knum = 5
kmeans = KMeans(featuresCol=assembler.getOutputCol(), predictionCol="cluster", k=knum, seed=0)
model = kmeans.fit(train)
print "Model Created!"

# See cluster centers:
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)
    
# Apply the clustering model to our data:
prediction = model.transform(train)
prediction.groupBy("cluster").count().orderBy("cluster").show()

# Look at the features of each cluster
customerCluster = {}

예제 #3

파일 보기

파일: logistic_regression.py 프로젝트: jmbowles/kaggle-malware-prediction

print("Creating Splits")
train, test = df.randomSplit([0.7, 0.3])

print("Selected Features Count: {0}".format(len(feature_cols)))
print("Selected Features: {0}".format(feature_cols))

print("Building Pipeline")
categorical_hasher = FeatureHasher(inputCols=categorical_cols,
                                   outputCol="categorical_features",
                                   categoricalCols=categorical_cols)
continuous_vector = VectorAssembler(inputCols=continuous_cols,
                                    outputCol="continuous_vector")
scaler = MinMaxScaler(min=0.0,
                      max=1.0,
                      inputCol=continuous_vector.getOutputCol(),
                      outputCol="continuous_features")
features = VectorAssembler(inputCols=feature_cols, outputCol="features")
regression = LogisticRegression(featuresCol=features.getOutputCol(),
                                labelCol="HasDetections",
                                regParam=0.0,
                                elasticNetParam=0.0,
                                tol=1e-06,
                                threshold=0.5,
                                family="auto")
pipeline = Pipeline(stages=[
    categorical_hasher, continuous_vector, scaler, features, regression
])
evaluator = MulticlassClassificationEvaluator(labelCol="HasDetections",
                                              predictionCol="prediction",
                                              metricName="accuracy")