GitHub - don9z/pydoop: A python hadoop streaming framework

A small framework for hadoop streaming by Python

runner.py simplifies mapreduce code as well as its unit test written by Python.

Please refer to the wordcount example.

pydoop.py is a wrapper for hadoop cli, which can be used to do file operations and run mapreduce jobs easily, for example:

# list files
./pydoop.py ls .

# copy file from local to hadoop cluster
./pydoop.py put readme.md .

# test wordcount job locally
./pydoop.py start -t readme.md output wordcount_mapper.py wordcount_reducer.py

# run wordcount job in hadoop cluster
./pydoop.py start readme.md output wordcount_mapper.py wordcount_reducer.py runner.py

# remove file from cluster
./pydoop.py rm readme.md

Please refer to this blog post for detail.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
pydoop.py		pydoop.py
readme.md		readme.md
runner.py		runner.py
runner_test.py		runner_test.py
wordcount_mapper.py		wordcount_mapper.py
wordcount_reducer.py		wordcount_reducer.py
wordcount_test.py		wordcount_test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

pydoop.py

pydoop.py

readme.md

readme.md

runner.py

runner.py

runner_test.py

runner_test.py

wordcount_mapper.py

wordcount_mapper.py

wordcount_reducer.py

wordcount_reducer.py

wordcount_test.py

wordcount_test.py

Repository files navigation

About

Releases

Packages

Languages

don9z/pydoop

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Languages