GitHub - syhw/contextual_word_segmentation: Unsupervised word segmentation from phonemes, using activity contexts (topics)

Requirements:

Adaptor Grammar software (py-cfg) compiled in PY_CFG (Makefile) (http://web.science.mq.edu.au/~mjohnson/Software.htm)
Python
- gensim
- (optional) pattern

To launch it on default settings (see in the Makefile, Providence corpus, children Naima, start age 11 months, end age 22 months), you need to put a .txt file in ProvidenceFinal/ToSegment/my_corpus.txt with document boundaries @ (known) or @? (possible boundary but unknown). Then run:

make prepare_topics
make all

You can play with the CHILD / EAGE / SAGE variables in the Makefile. E.g. :

make just_basic_and_single CHILD=naima SAGE=11 EAGE=22 NITER=500 make test_wo_prefix_topic CHILD=naima SAGE=11 EAGE=22 NITER=500 for eage in range 12 22; do make just_basic_and_single CHILD=naima SAGE=11 EAGE=$eage NITER=500; done

To get all the data points and plot them, use e.g.:

for eage in range 12 22; do make just_basic_and_single CHILD=naima SAGE=11 EAGE=$eage NITER=500; done python src/plot_AGs_results.py

the 500-520 iterations and 1000-1010 iterations are ran with a Gamma(100,0.001) PYP b parameter prior the 600-620 iterations are ran with a Gamma(100,0.01) PYP b parameter prior

Name		Name	Last commit message	Last commit date
Latest commit History 126 Commits
20topics_1min		20topics_1min
LyonFinal/ToSegment		LyonFinal/ToSegment
ProvidenceFinal		ProvidenceFinal
ProvidenceResegmented		ProvidenceResegmented
mark_scripts		mark_scripts
phonology_dict		phonology_dict
scripts		scripts
src		src
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
Naima_11to22m.phon		Naima_11to22m.phon
Naima_11to22m.sin		Naima_11to22m.sin
README.md		README.md
all_1min_docs_reseg_lemmatized.sin		all_1min_docs_reseg_lemmatized.sin
colloc.lt		colloc.lt
colloc3_syll.lt		colloc3_syll.lt
colloc3_syll_sc.lt		colloc3_syll_sc.lt
colloc3_syll_sc_common_collocs.lt		colloc3_syll_sc_common_collocs.lt
colloc3_syll_sc_common_words.lt		colloc3_syll_sc_common_words.lt
colloc_common_sc.lt		colloc_common_sc.lt
colloc_common_syll_sc.lt		colloc_common_syll_sc.lt
colloc_common_syll_sc_fr.lt		colloc_common_syll_sc_fr.lt
colloc_common_syll_sc_nopfx.lt		colloc_common_syll_sc_nopfx.lt
colloc_fr.lt		colloc_fr.lt
colloc_sc.lt		colloc_sc.lt
colloc_sc_fr.lt		colloc_sc_fr.lt
colloc_syll.lt		colloc_syll.lt
colloc_syll_fr.lt		colloc_syll_fr.lt
colloc_syll_sc.lt		colloc_syll_sc.lt
colloc_syll_sc_common_collocs.lt		colloc_syll_sc_common_collocs.lt
colloc_syll_sc_common_words.lt		colloc_syll_sc_common_words.lt
colloc_syll_sc_fr.lt		colloc_syll_sc_fr.lt
colloc_syll_sc_nopfx.lt		colloc_syll_sc_nopfx.lt
dump_trees.sh		dump_trees.sh
four_levels.lt		four_levels.lt
four_levels_sc.lt		four_levels_sc.lt
grammar.lt		grammar.lt
launch_adaptor.sh		launch_adaptor.sh
launch_adaptor_generic_samefolder.sh		launch_adaptor_generic_samefolder.sh
launch_adaptor_mean.sh		launch_adaptor_mean.sh
launch_adaptor_mean_samefolder.sh		launch_adaptor_mean_samefolder.sh
launch_adaptor_nopfx.sh		launch_adaptor_nopfx.sh
launch_adaptor_test.sh		launch_adaptor_test.sh
naima.lt		naima.lt
naima_11to22m.gold		naima_11to22m.gold
naima_11to22m.ylt		naima_11to22m.ylt
naima_docs_11to22m.sin		naima_docs_11to22m.sin
naima_docs_11to22m.ylt		naima_docs_11to22m.ylt
naima_splits_11to22m.gold		naima_splits_11to22m.gold
naima_splits_docs_11to22m.ylt		naima_splits_docs_11to22m.ylt
naima_topic_11to22m.sin		naima_topic_11to22m.sin
naima_topic_11to22m.ylt		naima_topic_11to22m.ylt
prepare_child_months.sh		prepare_child_months.sh
provi_reseg_lemmatized_tfidf.ldamodel		provi_reseg_lemmatized_tfidf.ldamodel
provi_reseg_lemmatized_tfidf_bow.mm		provi_reseg_lemmatized_tfidf_bow.mm
provi_reseg_lemmatized_tfidf_bow.mm.index		provi_reseg_lemmatized_tfidf_bow.mm.index
provi_reseg_lemmatized_tfidf_wordids.txt		provi_reseg_lemmatized_tfidf_wordids.txt
readapt_colloc3_common2_syll_sc.lt		readapt_colloc3_common2_syll_sc.lt
readapt_colloc3_common_syll_sc.lt		readapt_colloc3_common_syll_sc.lt
readapt_colloc3_syll_sc.lt		readapt_colloc3_syll_sc.lt
readapt_colloc_common2_syll_sc.lt		readapt_colloc_common2_syll_sc.lt
readapt_colloc_common_sc.lt		readapt_colloc_common_sc.lt
readapt_colloc_common_syll_sc.lt		readapt_colloc_common_syll_sc.lt
readapt_colloc_common_syll_sc_nopfx.lt		readapt_colloc_common_syll_sc_nopfx.lt
readapt_colloc_sc.lt		readapt_colloc_sc.lt
readapt_colloc_syll_sc.lt		readapt_colloc_syll_sc.lt
readapt_colloc_syll_sc_fr.lt		readapt_colloc_syll_sc_fr.lt
readapt_syll_sc.lt		readapt_syll_sc.lt
readapt_unigram_sc.lt		readapt_unigram_sc.lt
requirements.txt		requirements.txt
results.sh		results.sh
six_levels.lt		six_levels.lt
six_levels_sc.lt		six_levels_sc.lt
syll.lt		syll.lt
syll_common_sc.lt		syll_common_sc.lt
syll_fr.lt		syll_fr.lt
syll_sc.lt		syll_sc.lt
syll_sc_fr.lt		syll_sc_fr.lt
three_levels.lt		three_levels.lt
three_levels_one_lower.lt		three_levels_one_lower.lt
three_levels_one_lower_sc.lt		three_levels_one_lower_sc.lt
three_levels_sc.lt		three_levels_sc.lt
to_filter.txt		to_filter.txt
to_filter_fr.txt		to_filter_fr.txt
topics_do_all_Lyon.sh		topics_do_all_Lyon.sh
topics_do_all_Providence.sh		topics_do_all_Providence.sh
unigram.lt		unigram.lt
unigram_common_sc.lt		unigram_common_sc.lt
unigram_fr.lt		unigram_fr.lt
unigram_sc.lt		unigram_sc.lt
unigram_sc_fr.lt		unigram_sc_fr.lt

License

syhw/contextual_word_segmentation

Folders and files

Latest commit

History