Python VectorAssembler.filter Exemples

Langage de programmation: Python

Espace de nommage/Pack: pyspark.ml.feature

Class/Type: VectorAssembler

Méthode/Fonction: filter

Exemples au hotexamples.com: 2

Python VectorAssembler.filter - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de pyspark.ml.feature.VectorAssembler.filter extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

VectorAssembler(30)

getOutputCol(30)

transform(30)

getInputCols(19)

setInputCols(18)

setHandleInvalid(15)

select(11)

load(10)

setOutputCol(9)

randomSplit(7)

show(5)

explainParams(3)

join(2)

take(2)

setParams(2)

printSchema(2)

coalesce(2)

foreachPartition(2)

filter(2)

registerTempTable(1)

count(1)

cache(1)

dropna(1)

drop(1)

collect(1)

Méthodes fréquemment utilisées

VectorAssembler (30)

getOutputCol (30)

transform (30)

getInputCols (19)

setInputCols (18)

setHandleInvalid (15)

select (11)

load (10)

setOutputCol (9)

randomSplit (7)

Méthodes fréquemment utilisées

show (5)

explainParams (3)

join (2)

take (2)

setParams (2)

printSchema (2)

coalesce (2)

foreachPartition (2)

filter (2)

registerTempTable (1)

count (1)

cache (1)

dropna (1)

drop (1)

collect (1)

Méthodes fréquemment utilisées

count (1)

cache (1)

dropna (1)

drop (1)

collect (1)

Exemple #1

0

Afficher le fichier

Fichier : test_pyspark_ml_autologging.py Projet : dmatrix/mlflow

def dataset_iris_binomial(spark_session): from sklearn.datasets import load_iris df = load_iris(as_frame=True).frame.rename(columns={"target": "label"}) df = spark_session.createDataFrame(df) df = VectorAssembler(inputCols=df.columns[:-1], outputCol="features").transform(df) df = df.filter(df.label < 2).select("features", "label") df.cache() return df

Exemple #2

0

Afficher le fichier

def split_datasets(self): # 由于热独编码后，特征字段不再是之前的字段，重新定义特征值字段 feature_cols = [ # 特征值 "price", "cms_group_id_value", "final_gender_code_value", "age_level_value", "shopping_level_value", "occupation_value", "pid_value", "pl_onehot_value", "nucl_onehot_value" ] datasets = VectorAssembler().setInputCols(feature_cols).setOutputCol( "features").transform(self._datasets) self._train_datasets = datasets.filter( datasets.timestamp <= (1494691186 - 24 * 60 * 60)) self._test_datasets = datasets.filter( datasets.timestamp > (1494691186 - 24 * 60 * 60))