Pastaba: pasidaryti repozitorijos Fork'ą. Tuomet vietoje daraliu/p160m132-examples-spark repozitorijos pavadinimas taps studentoBitbucketVartotojoVardas/p160m132-examples-spark. Tuomet ją reikėtų klonuoti į savo Ubuntu Linux virtualią mašiną, pvz. /home/vagrant/labs
direktoriją.
-
.xls
,.xlsx
,.sas7bdat
formato failų skaitymas ir konvertavimas į.csv
formato failus naudojant Python. -
.csv
formato failų skaitymas ir rašymas naudojant Apache Spark.
-
K-vidurkių modelio apmokymas panaudojant
pyspark.mllib.clustering.KMeans
irpyspark.clustering.KMeansModel
. -
K-vidurkių modelio apmokymas panaudojant
pyspark.ml.clustering.KMeans
ir naudojantpyspark.ml.pipeline.Pipeline
bei kituspyspark.ml
komponentus.