People's Speech Data Pipelines

Installation

# libprotobuf-dev is an onnx dependency, transitively brought in by nemo.
sudo apt-get install git-lfs sox ffmpeg
# Set up a virtual environment of some sort
pip install numpy Cython
python setup.py develop
cp galvasr2/*.jar $(python -c "import pyspark; print(pyspark.__path__[0])")/jars

Run forced alignment pipeline.

python galvasr2/align/spark/align_cuda_decoder.py --stage=0

Name		Name	Last commit message	Last commit date
Latest commit History 2,203 Commits
.github		.github
docker		docker
docs		docs
galvasr2		galvasr2
model-training		model-training
platform		platform
scripts		scripts
spark-events		spark-events
third_party		third_party
.bazelrc		.bazelrc
.gitattributes		.gitattributes
.gitignore		.gitignore
.gitmodules		.gitmodules
.licenserc.yaml		.licenserc.yaml
.pylintrc		.pylintrc
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE.md		LICENSE.md
README.md		README.md
WORKSPACE		WORKSPACE
create_peoples_speech.sh		create_peoples_speech.sh
create_swap_disk.sh		create_swap_disk.sh
download_models.sh		download_models.sh
environment.yml		environment.yml
featurize.sh		featurize.sh
lattice_postprocess.conf		lattice_postprocess.conf
setup.py		setup.py
setup.sh		setup.sh
submit.sh		submit.sh
update_publications.sh		update_publications.sh

License

mlcommons/peoples-speech

Folders and files

Latest commit

History

Repository files navigation

People's Speech Data Pipelines

About

Resources

License

Stars

Watchers

Forks

Languages