Data Challenge Spark DSSP4, 07/16

How to execute on cluster

To train the model :

spark-submit --master yarn --num-executors 8 --driver-memory 2g --conf spark.ui.port=7770 code/evaluation.py

To generate the predictions.txt file :

spark-submit --master yarn --num-executors 8 --driver-memory 2g --conf spark.ui.port=7770 code/classify.py

To test the predictions :

spark-submit --master yarn --num-executors 8 --driver-memory 2g --conf spark.ui.port=7770 code/evaluate_F.py

List of files

evaluation.py : perform model training on training data (main file)
preProcessing.py : clean the data before training
extract_terms.py : do some features transformation on the dataset
helpers.py : other functions
loadFiles.py : load the data

Predictions

Predictions are located in the predictions.txt file.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

classify.py

classify.py

evaluate_F.py

evaluate_F.py

evaluation.py

evaluation.py

extract_terms.py

extract_terms.py

helpers.py

helpers.py

loadFiles.py

loadFiles.py

preProcess.py

preProcess.py

predictions.txt

predictions.txt

tfidfTEST.py

tfidfTEST.py

Repository files navigation

Data Challenge Spark DSSP4, 07/16

How to execute on cluster

List of files

Predictions

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
README.md		README.md
classify.py		classify.py
evaluate_F.py		evaluate_F.py
evaluation.py		evaluation.py
extract_terms.py		extract_terms.py
helpers.py		helpers.py
loadFiles.py		loadFiles.py
preProcess.py		preProcess.py
predictions.txt		predictions.txt
tfidfTEST.py		tfidfTEST.py

jhamilius/data-challenge-spark

Folders and files

Latest commit

History

Repository files navigation

Data Challenge Spark DSSP4, 07/16

How to execute on cluster

List of files

Predictions

About

Resources

Stars

Watchers

Forks

Languages