Система распознования русской речи, основанная на Kaldi.
Формат распознаваемого файла - PCM 16кГц 16бит 1канал.
Можно установить "Воск" с помощью pip. Для начала убедитесь, что используются достаточно новые версии pip и Python:
Python версия >= 3.5
pip версия >= 19.0
Обновите Python и Pip если нужно, а затем установите "Воск" такой командой :
pip3 install vosk
Выполните следующие команды:
-> Склонировать всю ветку
-> Загрузить с сайта https://alphacephei.com/vosk/models.html большую модель русского языка (vosk-model-ru-0.10.zip) и разархивировать с названием 'model'
-> Добавить в папку mp3 запись
-> В консольном окне, открытом из папки с содержимым ветки:
python3 main.py mp3/name.mp3
(вместо name название файла из папки mp3)
Результат: В папке done появится результат В папке wav соответсвующая запись в wav формате В папке test промежуточные результаты диаризации и распознования, которые после обработки записи самостоятельно удалятся
!!! При подключении диаризации не забыть сделать соответствующие изменения в recognation.py !!!