coreference-resolution

Работа по кластеризации имён для новостных текстов на русском языке.

Скрипт "./do.sh" запускает по порядку две грамматики для извлечения имён и далее скрипт для кластеризации. Скрипт "./do_not_recompile.sh" делает то же самое но не очищяет кэш, что позволяет быстрее делать много запусков. Скрипт "./prepare_dataset.sh" принимает папку с текстами и выделяет из них упоминания. Скрипт "./run_all.sh" позволяет запустить алгоритм на папке с текстами.

Директории proto и extractions содержат конфигурацию томита-парсера. Директория src содержит код для кластеризации и обучения.

Материалы соревнования factRuEval находятся по адресу https://github.com/dialogue-evaluation/factRuEval-2016. Код Томита-парсера и инструкции по установке доступны по адресу https://github.com/yandex/tomita-parser.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

extractions

extractions

proto

proto

src

src

.gitignore

.gitignore

README.md

README.md

do.sh

do.sh

do_not_recompile.sh

do_not_recompile.sh

prepare_dataset.sh

prepare_dataset.sh

run_all.sh

run_all.sh

Repository files navigation

coreference-resolution

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
extractions		extractions
proto		proto
src		src
.gitignore		.gitignore
README.md		README.md
do.sh		do.sh
do_not_recompile.sh		do_not_recompile.sh
prepare_dataset.sh		prepare_dataset.sh
run_all.sh		run_all.sh

opot/coreference-resolution

Folders and files

Latest commit

History

Repository files navigation

coreference-resolution

About

Resources

Stars

Watchers

Forks

Languages