Python LogisticRegression.evaluate 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml.classification

클래스/타입: LogisticRegression

메소드/함수: evaluate

hotexamples.com에서의 예제들: 5

Python LogisticRegression.evaluate - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.classification.LogisticRegression.evaluate에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

fit(30)

LogisticRegression(30)

transform(15)

setThreshold(12)

explainParams(11)

evaluate(5)

setLabelCol(4)

setElasticNetParam(4)

getOrDefault(4)

save(4)

load(3)

setMaxIter(3)

write(3)

getFeaturesCol(3)

extractParamMap(3)

setFeaturesCol(2)

explainParam(2)

getTol(1)

elasticNetParam(1)

isSet(1)

getThreshold(1)

maxiter(1)

predict(1)

getParam(1)

getMaxIter(1)

getLabelCol(1)

setParams(1)

setRegParam(1)

hasDefault(1)

예제 #1

파일 보기

from pyspark.ml.classification import LogisticRegression

#split the data
training_df, test_df = model_df.randomSplit([0.75, 0.25])
training_df.count()
training_df.groupBy('Status').count().show()
test_df.count()
test_df.groupBy('Status').count().show()
log_reg = LogisticRegression(labelCol='Status').fit(training_df)

#Training Results
train_results = log_reg.evaluate(training_df).predictions
train_results.filter(train_results['Status'] == 1).filter(
    train_results['prediction'] == 1).select(
        ['Status', 'prediction', 'probability']).show(10, False)

# MAGIC %md Probability at 0 index is for 0 class and probabilty as 1 index is for 1 class
correct_preds = train_results.filter(train_results['Status'] == 1).filter(
    train_results['prediction'] == 1).count()
training_df.filter(training_df['Status'] == 1).count()

#accuracy on training dataset
float(correct_preds) / (training_df.filter(training_df['Status'] == 1).count())

#Test Set results

results = log_reg.evaluate(test_df).predictions
results.select(['Status', 'prediction']).show(10, False)
results.printSchema()

#confusion matrix

예제 #2

파일 보기

# DBTITLE 1,Train Test Split of data
train_data, test_data = data.randomSplit([0.75, 0.25], seed=12345)

# COMMAND ----------

# DBTITLE 1,Modelling
from pyspark.ml.classification import LogisticRegression
model = LogisticRegression(labelCol='label', maxIter=5, regParam=0.001)
model = model.fit(train_data)
summary = model.summary
summary.predictions.describe().show()

# COMMAND ----------

from pyspark.ml.evaluation import BinaryClassificationEvaluator
predictions = model.evaluate(test_data)

# COMMAND ----------

evaluator = BinaryClassificationEvaluator(rawPredictionCol='prediction',
                                          labelCol='label')
evaluator.evaluate(predictions.predictions)

# COMMAND ----------

#Achieved 96.3% accuracy on test data, lets predict on the unseen test data for kaggle submission.

# COMMAND ----------

results = model.transform(test_data)
results.select('features', 'prediction').show()

예제 #3

파일 보기

파일: log_reg.py 프로젝트: pursue1995/pyspark-recipe-zhcn

model_df = df.select(['features', 'Status'])

## 3.2 进行逻辑回归

from pyspark.ml.classification import LogisticRegression  # 逻辑回归。该类支持多项逻辑(softmax)和二项逻辑回归

training_df, test_df = model_df.randomSplit([0.75, 0.25
                                             ])  # 划分数据，75%的数据用于训练，25%数据用于验证测试

training_df.groupBy('Status').count().show()  # 查看划分后的数据
test_df.groupBy('Status').count().show()

log_reg = LogisticRegression(labelCol='Status').fit(
    training_df)  # 返回LogisticRegressionModel类型模型对象

train_results = log_reg.evaluate(
    training_df
).predictions  # 在测试数据集中评估模型,返回对象为BinaryLogisticRegressionSummary-给定模型的二元逻辑回归结果

train_results.filter(train_results['Status'] == 1).filter(
    train_results['prediction'] == 1).select(
        ['Status', 'prediction', 'probability']).show(10, False)

print('{}{}'.format('预测准确率：',
                    log_reg.evaluate(training_df).accuracy))  # 查看预测的准确率

test_results = log_reg.evaluate(test_df).predictions  # 使用模型训练测试数据
test_results.filter(test_results['Status'] == 1).filter(
    test_results['prediction'] == 1).select(
        ['Status', 'prediction', 'probability']).show(10, False)

예제 #4

파일 보기

파일: classification.py 프로젝트: BenitaDiop/FullStackBigData-with-SPARK

from pyspark.ml.feature import VectorAssembler

df_assembler = VectorAssembler(inputCols=['features', 'token_count'],
                               outputCol='features_vec')
model_text_df = df_assembler.transform(model_text_df)
model_text_df.printSchema()

from pyspark.ml.classification import LogisticRegression
#split the data
training_df, test_df = model_text_df.randomSplit([0.75, 0.25])
training_df.groupBy('Label').count().show()

test_df.groupBy('Label').count().show()
log_reg = LogisticRegression(featuresCol='features_vec',
                             labelCol='Label').fit(training_df)
results = log_reg.evaluate(test_df).predictions
results.show()

from pyspark.ml.evaluation import BinaryClassificationEvaluator

#confusion matrix
true_postives = results[(results.Label == 1)
                        & (results.prediction == 1)].count()
true_negatives = results[(results.Label == 0)
                         & (results.prediction == 0)].count()
false_positives = results[(results.Label == 0)
                          & (results.prediction == 1)].count()
false_negatives = results[(results.Label == 1)
                          & (results.prediction == 0)].count()

recall = float(true_postives) / (true_postives + false_negatives)

예제 #5

파일 보기

train_tf_vec = tf_vector.transform(train_df)
test_tf_vec = tf_vector.transform(test_df)

tfidf_vector = IDF(inputCol='tf_vector', outputCol='tfidf_vector')

train_tfidf_vec = tfidf_vector.fit(train_tf_vec).transform(train_tf_vec)
test_tfidf_vec = tfidf_vector.fit(test_tf_vec).transform(test_tf_vec)

assembler = VectorAssembler(inputCols=['tfidf_vector', 'token_count'],
                            outputCol='X')

train_tfidf_vec = assembler.transform(train_tfidf_vec)
test_tfidf_vec = assembler.transform(test_tfidf_vec)

train_data, dev_data = train_tfidf_vec.randomSplit([0.95, 0.05])

model = LogisticRegression(featuresCol='X', labelCol='label').fit(train_data)

result_dev = model.evaluate(dev_data).predictions
result_test = model.evaluate(test_tfidf_vec).predictions

result_test = result_test.withColumn('final',
                                     result_test.prediction.cast('int'))
result_test.select("final").write.csv(
    path="file:///home/root/emailclass/sub_1.csv", header="false")

auc_dev = BinaryClassificationEvaluator(labelCol='label').evaluate(result_dev)

print(auc_dev)