A Pytorch implementation of 'AUTOMATIC SPEECH EMOTION RECOGNITION USING RECURRENT NEURAL NETWORKS WITH LOCAL ATTENTION'

Requirements

Python 3.6.4
Pytorch 0.4.1
opensmile 2.3.0
fileutils.readHtk(githubrepo. I changed htk.py for python3)

Preparation

wav_cat.list, utt.list

IEMOCAP DB has 5531 utterances, composed of 4 Emotions.

A: Anger H: Excited + Happiness N: Neutral S: Sadness

#head -2 iemocap/wav_cat.list
/your/path/Ses01F_impro01_F000.wav N
/your/path/Ses01F_impro01_F001.wav N

#head -2 iemocap/utt.list
Ses01F_impro01_F000
Ses01F_impro01_F001

MSP-IMPROV DB has 7798 utterances, composed of 4 Emotions.

#head -2 msp_improv/wav_cat.list
/your/path/MSP-IMPROV-S01A-F01-P-FM01.wav N 
/your/path/MSP-IMPROV-S01A-F01-P-FM02.wav H

#head -2 msp_improv/utt.list
MSP-IMPROV-S01A-F01-P-FM01
MSP-IMPROV-S01A-F01-P-FM02

How to Run

./add_opensmile_conf.sh your_opensmile_dir

./prepare_list.sh iemocap/wav_cat.list \ # done.
	iemocap/lld.htk.list iemocap/utt.list iemocap/lld/

./extract_lld.sh your_opensmile_dir/ iemocap/wav_cat.list \
	iemocap/lld.htk.list

./make_utt_lld_pair.py iemocap/utt.list iemocap/lld.htk.list \
	iemocap/utt_lld.pk

./iemocap/make_csv.sh iemocap/utt.list iemocap/wav_cat.list iemocap/ \
	iemocap/full_dataset.csv

# Modify make_dataset.py parameters as you want!
#
### Default setting ###
#
# devfrac=0.2
# session=1
# prelabel="gender"
#
# e.g.
# sed 's/"gender"/"speaker"/' iemocap/make_dataset.py > new_script.py
# sed 's/devfrac=0.2/devfrac=0.1/' iemocap/make_dataset.py > new_script.py

./iemocap/make_dataset.py iemocap/full_dataset.csv iemocap/utt_lld.pk iemocap/your_dataset_path

# Modify make_expcase.py params as you want!
#
### Default setting ###
#
# lr=0.00005
# bsz=64
# ephs=200

./iemocap/make_expcase.py iemocap/your_dataset_path iemocap/your_dataset_path/your_expcase

#ls iemocap/your_dataset_path/your_expcase 

# log	
# param.json
# premodel.pth
# model.pth

./run.py --propjs iemocap/your_dataset_path/your_expcase/param.json

#grep test iemocap/your_dataset_path/your_expcase/log

#iemocap/sess1/exp/log:[test] score: 0.451, loss: 1.282
#iemocap/sess2/exp/log:[test] score: 0.535, loss: 1.201
#iemocap/sess3/exp/log:[test] score: 0.609, loss: 1.131
#iemocap/sess4/exp/log:[test] score: 0.560, loss: 1.177
#iemocap/sess5/exp/log:[test] score: 0.505, loss: 1.233

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
fileutils		fileutils
iemocap		iemocap
localatt		localatt
opensmile_configs		opensmile_configs
.gitignore		.gitignore
README.md		README.md
add_opensmile_configs.sh		add_opensmile_configs.sh
backup		backup
extract_lld.sh		extract_lld.sh
make_utt_lld_pair.py		make_utt_lld_pair.py
prepare_list.sh		prepare_list.sh
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fileutils

fileutils

iemocap

iemocap

localatt

localatt

opensmile_configs

opensmile_configs

.gitignore

.gitignore

README.md

README.md

add_opensmile_configs.sh

add_opensmile_configs.sh

backup

backup

extract_lld.sh

extract_lld.sh

make_utt_lld_pair.py

make_utt_lld_pair.py

prepare_list.sh

prepare_list.sh

run.py

run.py

Repository files navigation

A Pytorch implementation of 'AUTOMATIC SPEECH EMOTION RECOGNITION USING RECURRENT NEURAL NETWORKS WITH LOCAL ATTENTION'

Requirements

Preparation

wav_cat.list, utt.list

How to Run

About

Releases

Packages

Languages

signalogy/localatt_emorecog

Folders and files

Latest commit

History

Repository files navigation

A Pytorch implementation of 'AUTOMATIC SPEECH EMOTION RECOGNITION USING RECURRENT NEURAL NETWORKS WITH LOCAL ATTENTION'

Requirements

Preparation

wav_cat.list, utt.list

How to Run

About

Resources

Stars

Watchers

Forks

Languages