Работа по кластеризации имён для новостных текстов на русском языке.
Скрипт "./do.sh" запускает по порядку две грамматики для извлечения имён и далее скрипт для кластеризации. Скрипт "./do_not_recompile.sh" делает то же самое но не очищяет кэш, что позволяет быстрее делать много запусков. Скрипт "./prepare_dataset.sh" принимает папку с текстами и выделяет из них упоминания. Скрипт "./run_all.sh" позволяет запустить алгоритм на папке с текстами.
Директории proto и extractions содержат конфигурацию томита-парсера. Директория src содержит код для кластеризации и обучения.
Материалы соревнования factRuEval находятся по адресу https://github.com/dialogue-evaluation/factRuEval-2016. Код Томита-парсера и инструкции по установке доступны по адресу https://github.com/yandex/tomita-parser.