Python RandomForestClassifier.load 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml.classification

메소드/함수: load

hotexamples.com에서의 예제들: 6

Python RandomForestClassifier.load - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.classification.RandomForestClassifier.load에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

RandomForestClassifier(30)

fit(30)

transform(10)

save(7)

load(6)

explainParams(4)

write(2)

getLabelCol(1)

getPredictionCol(1)

predict_proba(1)

setLabelCol(1)

예제 #1

파일 보기

def random_forest_classifier():
    spark = SparkSession \
        .builder \
        .appName("Python Spark SQL basic example") \
        .config("spark.some.config.option", "some-value") \
        .getOrCreate()
    df = spark.createDataFrame([(1.0, Vectors.dense(1.0)),
                                (0.0, Vectors.sparse(1, [], []))],
                               ["label", "features"])
    stringIndexer = StringIndexer(inputCol="label", outputCol="indexed")
    si_model = stringIndexer.fit(df)
    td = si_model.transform(df)
    rf = RandomForestClassifier(numTrees=3,
                                maxDepth=2,
                                labelCol="indexed",
                                seed=42)
    model = rf.fit(td)
    # model.featureImportances
    # # SparseVector(1, {0: 1.0})
    # allclose(model.treeWeights, [1.0, 1.0, 1.0])
    # # True
    test0 = spark.createDataFrame([(Vectors.dense(-1.0), )], ["features"])
    result = model.transform(test0).head()
    # result.prediction
    # # 0.0
    # numpy.argmax(result.probability)
    # # 0
    # numpy.argmax(result.rawPrediction)
    # # 0
    # test1 = spark.createDataFrame([(Vectors.sparse(1, [0], [1.0]),)], ["features"])
    # model.transform(test1).head().prediction
    # # 1.0
    # model.trees
    # # [DecisionTreeClassificationModel (uid=...) of depth..., DecisionTreeClassificationModel...]
    temp_path = "."
    rfc_path = temp_path + "/rfc"
    rf.write().overwrite().save(rfc_path)
    rf2 = RandomForestClassifier.load(rfc_path)
    # rf2.getNumTrees()
    # # 3
    model_path = temp_path + "/rfc_model"
    model.write().overwrite().save(model_path)
    model2 = RandomForestClassificationModel.load(model_path)

예제 #2

파일 보기

import pyspark.sql.functions as func
import pyspark

if (len(sys.argv) < 3):
    print("Please provide testfilepth")
    sys.exit(-1)

modelpath = sys.argv[1]
testfilepath = sys.argv[2]

conf = SparkConf().setAppName("Wine Quality Testing").setMaster("local[1]")
sc = SparkContext(conf=conf)

spark = SparkSession.builder.getOrCreate()

rf = RandomForestClassifier.load(modelpath)

defTest = spark.read.format('csv').options(header='true',
                                           inferSchema='true',
                                           delimiter=';').csv(testfilepath)

defTest.printSchema()

featureColumns = [
    col for col in defTest.columns if (col != '""""quality"""""')
]

assembler = VectorAssembler(inputCols=featureColumns, outputCol='features')

rfPipeline = Pipeline(stages=[assembler, rf])

예제 #3

파일 보기

from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.mllib.evaluation import MulticlassMetrics
import sys
import pyspark.sql.functions as func
import pyspark
# import findspark
# findspark.init()

conf = SparkConf().setAppName("Wine Quality Testing").setMaster("local[1]")
sc = SparkContext(conf=conf)

spark = SparkSession.builder.getOrCreate()

rf = RandomForestClassifier.load("s3://myprogrambucket/rfwine_model.model")

defTest = spark.read.format('csv').options(
    header='true', inferSchema='true',
    delimiter=';').csv("s3://myprogrambucket/ValidationDataset.csv")
defTest.printSchema()

featureColumns = [
    col for col in defTest.columns if (col != '""""quality"""""')
]

assembler = VectorAssembler(inputCols=featureColumns, outputCol='features')

rfPipeline = Pipeline(stages=[assembler, rf])

fit = rfPipeline.fit(defTest)

예제 #4

파일 보기

파일: testResults.py 프로젝트: manishptl/cloudcomputing

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.mllib.evaluation import MulticlassMetrics
import sys
import pyspark.sql.functions as func
import pyspark

spark = SparkSession.builder.master("local").appName("assignment2").config(
    "spark.some.config.option", "some-value").getOrCreate()

rf = RandomForestClassifier.load("s3://winedataset/rfwine_model.model")

defTest = spark.read.format('csv').options(
    header='true', inferSchema='true',
    delimiter=';').csv("s3://winedataset/ValidationDataset.csv")
defTest.printSchema()

featureColumns = [
    col for col in defTest.columns if (col != '""""quality"""""')
]

assembler = VectorAssembler(inputCols=featureColumns, outputCol='features')

rfPipeline = Pipeline(stages=[assembler, rf])

fit = rfPipeline.fit(defTest)
transformed = fit.transform(defTest)
transformed = transformed.withColumn("prediction",

예제 #5

파일 보기

파일: wineTestDocker.py 프로젝트: hapanismit/Wine-Quality-Prediction-Model-in-Spark

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.mllib.evaluation import MulticlassMetrics
import sys
import pyspark.sql.functions as func
import pyspark

conf = SparkConf().setAppName("Wine Quality Prediction").setMaster("local[1]")
sc = SparkContext(conf=conf)
spark = SparkSession.builder.getOrCreate()

#loading trained model
rf = RandomForestClassifier.load("wine_model.model")

#Read data from csv
#data = spark.read.format('csv').options(header='true', inferSchema='true', delimiter=';').csv("s3://pa2smit/ValidationDataset.csv")
data = spark.read.csv('ValidationDataset.csv',
                      header='true',
                      inferSchema='true',
                      sep=';')

featureColumns = [col for col in data.columns if col != '""""quality"""""']
assembler = VectorAssembler(inputCols=featureColumns, outputCol='values')

rfPipe = Pipeline(stages=[assembler, rf])

fitData = rfPipe.fit(data)
transformedData = fitData.transform(data)

예제 #6

파일 보기

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.mllib.evaluation import MulticlassMetrics
import sys
import pyspark.sql.functions as func
import pyspark

conf = SparkConf().setAppName("Wine Quality Prediction").setMaster("local[1]")
sc = SparkContext(conf=conf)
spark = SparkSession.builder.getOrCreate()

#loading trained model
rf = RandomForestClassifier.load("s3://pa2smit/wine_model.model")

#Read data from csv
data = spark.read.format('csv').options(
    header='true', inferSchema='true',
    delimiter=';').csv("s3://pa2smit/ValidationDataset.csv")

featureColumns = [col for col in data.columns if col != '""""quality"""""']
assembler = VectorAssembler(inputCols=featureColumns, outputCol='values')

rfPipe = Pipeline(stages=[assembler, rf])

fitData = rfPipe.fit(data)
transformedData = fitData.transform(data)
transformedData = transformedData.withColumn(
    "prediction", func.round(transformedData['prediction']))