Культуромика

Магистратура НИУ ВШЭ

НИС 2018

Культуромика

Участники проекта:

Митрофанова Марина
Николаева Анна (Telegram: @annnyway)
Пожидаева Марина

Куратор проекта:

Орехов Борис Валерьевич

Описание

Данный проект развивает область Культуромики, которая была предложена Google в 2011 году по результатам количественного анализа n-грамм в Google Books Ngram Viewer. Google Books Ngram Viewer – это поисковый веб-сервис, позволяющий строить графики и анализировать данные по частотности языковых единиц на основе огромного количества печатных источников, опубликованных с 16 века и собранных в сервис Google Books. Основная гипотеза, выдвинутая Google в 2011 году, заключается в том, что частотность употребления слов в книгах отражает важные культурные тренды.

В отношении текстов на русском языке Google Ngram Viewer не идеален: в нем не распознана вся старая русская орфография до 1918 года, и поэтому там сложно найти и проанализировать слова, характерные, скажем, для произведений Тютчева и Достоевского. Почему бы не исправить эти ошибки?

Очень часто исследователи направления культуромики изучают тренды конкретных слов или эпохи, думая, что частоты будут меняться именно у этих слов и именно в эту эпоху. Но что если посмотреть на значительную часть датасета Google Ngrams глазами статистики и выявить общие тенденции пиков и спадов частот слов и словосочетаний, не имея никаких предубеждений? Вдруг машина поймет что-то на основе этих данных, до чего не может додуматься человек? Именно поэтому мы решили применить статистические методы к большим данным из Google Ngrams - с целью выявления аномалий в данных.

Также было бы здорово по колебаниям в частотах n-грамм или по тем же аномалиям делать автоматические предположения о возможном событии в культуре и истории, вызвавшем эти колебания. В этом нам могут помочь Викиданные.

Задачи проекта

1. Исправление орфографии в русских n-граммах до 1918 года из Google Books Ngram Viewer

Ожидаемый результат: исправленный датасет в открытом доступе.

Ответственная Митрофанова М.

2. Поиск статистических выбросов и трендов автоматически, который включает в себя выявление пиков и спадов частотности n-грамм; выявление слов и n-грамм с отрицательной корреляцией; другие потенциально интересные статистические наблюдения, о которых исследователь может не подумать.

Ответственная Пожидаева М.

3. Связывание Google n-грамм русского языка с базой Викиданных для автоматического предсказывания культурного события, повлиявшего на частотность.

Ответственная Николаева А.

Результат: примеры утверждений из Викиданных, совпавших по годам с ростом частот в Google ngrams, можно найти тут.

Научные статьи по проекту

Статья Митрофановой М. по коррекции орфографии
Подробный черновой вариант статьи Николаевой А. и Пожидаевой М. по статистической обработке и связыванию Google Ngrams с Викиданными. На с.3 указан основной пайплайн работы с Викиданными.

Презентации по проекту для НИСа

Отчеты по встречам

см. Meeting_reports.md

Техническое задание

Тим-лидерство

Расписание тим-лидерства: https://docs.google.com/spreadsheets/d/1wkLXJOS6rsG5xUrja26ofORUhB5N80HYoJlb99h4KSA/edit#gid=0

Общение с куратором

По понедельникам

Name		Name	Last commit message	Last commit date
Latest commit History 99 Commits
literature		literature
ngram_stats		ngram_stats
ngrams		ngrams
wikidata		wikidata
Meeting_reports.md		Meeting_reports.md
README.md		README.md
culturomics.pdf		culturomics.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

literature

literature

ngram_stats

ngram_stats

ngrams

ngrams

wikidata

wikidata

Meeting_reports.md

Meeting_reports.md

README.md

README.md

culturomics.pdf

culturomics.pdf

Repository files navigation

Культуромика

Участники проекта:

Куратор проекта:

Описание

Задачи проекта

Научные статьи по проекту

Презентации по проекту для НИСа

Отчеты по встречам

Техническое задание

Тим-лидерство

Общение с куратором

About

Releases

Packages

Contributors 3

Languages

mapozhidaeva/Culturomics

Folders and files

Latest commit

History

Repository files navigation

Культуромика

Участники проекта:

Куратор проекта:

Описание

Задачи проекта

Научные статьи по проекту

Презентации по проекту для НИСа

Отчеты по встречам

Техническое задание

Тим-лидерство

Общение с куратором

About

Resources

Stars

Watchers

Forks

Languages