Python TrainValidationSplitModel.TrainValidationSplitModel 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml.tuning

메소드/함수: TrainValidationSplitModel

hotexamples.com에서의 예제들: 2

Python TrainValidationSplitModel.TrainValidationSplitModel - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.tuning.TrainValidationSplitModel.TrainValidationSplitModel에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

load(11)

TrainValidationSplitModel(2)

자주 사용되는 메소드들

load (11)

TrainValidationSplitModel (2)

예제 #1

파일 보기

파일: sparkFunctions.py 프로젝트: manuelalferez/FlOYBD

def loadModelFromDatabase(columnName, station_id):
    cluster = Cluster(['192.168.246.236'])
    session = cluster.connect("dev")
    name = str(station_id + "__" + columnName)
    query = "SELECT model FROM linear_model WHERE name=%s"
    rows = session.execute(query, parameters=[(name)])
    # rows = session.execute('SELECT model FROM linear_model WHERE name=\"'+name+'\"')
    if (rows):
        for row in rows:
            loadedCustomModel = pickle.loads(row[0])
            loadedModel = loadedCustomModel.getModel()

            lrModel = TrainValidationSplitModel(loadedModel)
            return row[0]

예제 #2

파일 보기

    def _fit(self, dataset):
        est = self.getOrDefault(self.estimator)
        epm = self.getOrDefault(self.estimatorParamMaps)
        numModels = len(epm)
        eva = self.getOrDefault(self.evaluator)
        tRatio = self.getOrDefault(self.trainRatio)
        seed = self.getOrDefault(self.seed)
        randCol = self.uid + "_rand"
        df = dataset.select("*", rand(seed).alias(randCol))
        metrics = [0.0] * numModels
        condition = (df[randCol] >= tRatio)
        train_fold = self.train_fold
        test_fold = self.test_fold

        df = df.sort(df.id.asc())
        dfp = df.toPandas()
        dfp = np.array_split(dfp, train_fold + test_fold)
        train = self.spark.createDataFrame(data=dfp[0].round(3))
        for i in range(1, train_fold):
            p = self.spark.createDataFrame(data=dfp[i].round(3))
            train = train.union(p)
        validation = self.spark.createDataFrame(data=dfp[-1].round(3))
        for j in range(-2, -test_fold - 1, -1):
            q = self.spark.createDataFrame(data=dfp[j].round(3))
            validation = validation.union(q)
        validation = validation.sort(validation.id.asc())
        train = train.sort(train.id.asc())

        # train.select(train.id).show(14000)
        # print('#######################################################################')
        # validation.select(validation.id).show(14000)

        models = est.fit(train, epm)
        for j in range(numModels):
            model = models[j]
            metric = eva.evaluate(model.transform(validation, epm[j]))
            metrics[j] += metric
        if eva.isLargerBetter():
            bestIndex = np.argmax(metrics)
        else:
            bestIndex = np.argmin(metrics)
        bestModel = est.fit(dataset, epm[bestIndex])
        return self._copyValues(TrainValidationSplitModel(bestModel, metrics))