Python Pipeline.read 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml

클래스/타입: Pipeline

메소드/함수: read

hotexamples.com에서의 예제들: 3

Python Pipeline.read - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.Pipeline.read에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Pipeline(30)

fit(30)

load(30)

transform(30)

write(30)

setStages(19)

save(16)

getStages(10)

read(3)

show(2)

cache(1)

drop(1)

explainParams(1)

randomSplit(1)

select(1)

예제 #1

파일 보기

파일: annotators.py 프로젝트: oeegee/spark-nlp

 def runTest(self):
     document_assembler = DocumentAssembler() \
         .setInputCol("text") \
         .setOutputCol("document")
     tokenizer = RegexTokenizer() \
         .setOutputCol("token")
     lemmatizer = Lemmatizer() \
         .setInputCols(["token"]) \
         .setOutputCol("lemma") \
         .setDictionary({"sad": "unsad"})
     finisher = Finisher() \
         .setInputCols(["token", "lemma"]) \
         .setOutputCols(["token_views", "lemma_views"])
     pipeline = Pipeline(
         stages=[document_assembler, tokenizer, lemmatizer, finisher])
     model = pipeline.fit(self.data)
     token_before_save = model.transform(self.data).select(
         "token_views").take(1)[0].token_views.split("@")[2]
     lemma_before_save = model.transform(self.data).select(
         "lemma_views").take(1)[0].lemma_views.split("@")[2]
     pipe_path = "./tmp_pipeline"
     pipeline.write().overwrite().save(pipe_path)
     loaded_pipeline = Pipeline.read().load(pipe_path)
     token_after_save = model.transform(self.data).select(
         "token_views").take(1)[0].token_views.split("@")[2]
     lemma_after_save = model.transform(self.data).select(
         "lemma_views").take(1)[0].lemma_views.split("@")[2]
     print(token_before_save)
     assert token_before_save == "sad"
     assert lemma_before_save == "unsad"
     assert token_after_save == token_before_save
     assert lemma_after_save == lemma_before_save
     loaded_pipeline.fit(self.data).transform(self.data).show()

예제 #2

파일 보기

from pyspark.ml import PipelineModel
from pyspark.sql.types import DoubleType

from pyspark import SparkFiles

url = "https://s3-us-west-2.amazonaws.com/mlapi-samples/demo/data/input/iris.csv"
spark.sparkContext.addFile(url)

# Load and parse the data file, converting it to a DataFrame.
data = spark.read.csv(SparkFiles.get("iris.csv"), header=True)

data = data.withColumn("sepal_length", data["sepal_length"].cast(DoubleType()))
data = data.withColumn("sepal_width", data["sepal_width"].cast(DoubleType()))
data = data.withColumn("petal_width", data["petal_width"].cast(DoubleType()))
data = data.withColumn("petal_length", data["petal_length"].cast(DoubleType()))

pipeline = Pipeline.read().load("classification-pipeline")
model = PipelineModel.read().load("classification-model")

# Make predictions.
predictions = model.transform(data)

# Select example rows to display.
predictions.select("predictedLabel", "species", "features").show(5)

# Select (prediction, true label) and compute test error
evaluator = MulticlassClassificationEvaluator(
    labelCol="indexedLabel", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print("Test Error = %g" % (1.0 - accuracy))

예제 #3

파일 보기

from pyspark.ml import Pipeline
stages = [filterer, converter, binarizer, extractor, assembler, classifier]
pipeline = Pipeline(stages=stages)

# ## Save and load the machine learning pipeline

# guardar la instancia del  `Pipeline` HDFS:
pipeline.write().overwrite().save("models/pipeline")

# si no queremos sobreescribirlo:
#```python
#pipeline.save("models/pipeline")
#```

# leer el pipeline desde el hdfs  :
pipeline_loaded = Pipeline.read().load("models/pipeline")

# se puede usar esto otro método:
#```python
#pipeline_loaded = Pipeline.load("models/pipeline")
#```

# ## entrenar el modelo

pipeline_model = pipeline.fit(rides)

# ## guardar el modelo

# guardar el pipeline model en  HDFS:
pipeline_model.write().overwrite().save("models/pipeline_model")