Магистратура НИУ ВШЭ
НИС 2018
- Митрофанова Марина
- Николаева Анна (Telegram: @annnyway)
- Пожидаева Марина
- Орехов Борис Валерьевич
Данный проект развивает область Культуромики, которая была предложена Google в 2011 году по результатам количественного анализа n-грамм в Google Books Ngram Viewer. Google Books Ngram Viewer – это поисковый веб-сервис, позволяющий строить графики и анализировать данные по частотности языковых единиц на основе огромного количества печатных источников, опубликованных с 16 века и собранных в сервис Google Books. Основная гипотеза, выдвинутая Google в 2011 году, заключается в том, что частотность употребления слов в книгах отражает важные культурные тренды.
В отношении текстов на русском языке Google Ngram Viewer не идеален: в нем не распознана вся старая русская орфография до 1918 года, и поэтому там сложно найти и проанализировать слова, характерные, скажем, для произведений Тютчева и Достоевского. Почему бы не исправить эти ошибки?
Очень часто исследователи направления культуромики изучают тренды конкретных слов или эпохи, думая, что частоты будут меняться именно у этих слов и именно в эту эпоху. Но что если посмотреть на значительную часть датасета Google Ngrams глазами статистики и выявить общие тенденции пиков и спадов частот слов и словосочетаний, не имея никаких предубеждений? Вдруг машина поймет что-то на основе этих данных, до чего не может додуматься человек? Именно поэтому мы решили применить статистические методы к большим данным из Google Ngrams - с целью выявления аномалий в данных.
Также было бы здорово по колебаниям в частотах n-грамм или по тем же аномалиям делать автоматические предположения о возможном событии в культуре и истории, вызвавшем эти колебания. В этом нам могут помочь Викиданные.
1. Исправление орфографии в русских n-граммах до 1918 года из Google Books Ngram Viewer
Ожидаемый результат: исправленный датасет в открытом доступе.
Ответственная Митрофанова М.
2. Поиск статистических выбросов и трендов автоматически, который включает в себя выявление пиков и спадов частотности n-грамм; выявление слов и n-грамм с отрицательной корреляцией; другие потенциально интересные статистические наблюдения, о которых исследователь может не подумать.
Ответственная Пожидаева М.
3. Связывание Google n-грамм русского языка с базой Викиданных для автоматического предсказывания культурного события, повлиявшего на частотность.
Ответственная Николаева А.
Результат: примеры утверждений из Викиданных, совпавших по годам с ростом частот в Google ngrams, можно найти тут.
-
Подробный черновой вариант статьи Николаевой А. и Пожидаевой М. по статистической обработке и связыванию Google Ngrams с Викиданными. На с.3 указан основной пайплайн работы с Викиданными.
см. Meeting_reports.md
Расписание тим-лидерства: https://docs.google.com/spreadsheets/d/1wkLXJOS6rsG5xUrja26ofORUhB5N80HYoJlb99h4KSA/edit#gid=0
По понедельникам