Skip to content

Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.

Notifications You must be signed in to change notification settings

stroykova/ontology

Repository files navigation

Автор: Стройкова Ксения
email: k.a.stroykova@gmail.com

ТРЕБОВАНИЯ

Программа запускалась на Windows 7.
Для выполнения использовался Python 2.7.3

ЗАПУСК

Исходные данные для онтологии

В репозитории уже расположен файл ontology, составленный из этих дампов

Для составления онтологии необходимо скачать дампы отсюда:
http://dumps.wikimedia.org/ruwiki/20140306/

ruwiki-20140306-pages-articles1.xml.bz2 247.4 MB
ruwiki-20140306-pages-articles2.xml.bz2 354.7 MB
ruwiki-20140306-pages-articles3.xml.bz2 499.5 MB
ruwiki-20140306-pages-articles4.xml.bz2 988.1 MB
Распаковать и переместить в папку docs

Создать файл category, в котором указать имя категории для поиска

Выполнить python ontology.py docs category

Выходные файлы: 
categories - файл со списком всех найденных категорий в дампах википедии 
ontology - файл с найденными краткими описаниями сущностей из категории. article - признак новой сущности. После признака article следует набор ключ -> значение, что соответствует имени факта -> факту.

Извлечение сущностей из статей с помощью Tomita парсера

Перейти в директорию tomita. Создать файл input.txt, поместить в него текст исходной статьи. Выполнить tomitaparser.exe config.proto Будет создан файл output.txt, в котором будет содержаться информация о сущностях в формате xml. 

Поиск сущноcтей в онтологии

Перейти в корневую директорию. Выполнить python parse_article.py ontology tomita/output.txt output. 
output - директория, в которой будет содержаться результат поиска: это набор файлов с сущностями из онтологии.

About

Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages