Skip to content

mapozhidaeva/Culturomics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

99 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Магистратура НИУ ВШЭ

НИС 2018

Культуромика

Участники проекта:

  • Митрофанова Марина
  • Николаева Анна (Telegram: @annnyway)
  • Пожидаева Марина

Куратор проекта:

  • Орехов Борис Валерьевич

Описание

Данный проект развивает область Культуромики, которая была предложена Google в 2011 году по результатам количественного анализа n-грамм в Google Books Ngram Viewer. Google Books Ngram Viewer – это поисковый веб-сервис, позволяющий строить графики и анализировать данные по частотности языковых единиц на основе огромного количества печатных источников, опубликованных с 16 века и собранных в сервис Google Books. Основная гипотеза, выдвинутая Google в 2011 году, заключается в том, что частотность употребления слов в книгах отражает важные культурные тренды.

В отношении текстов на русском языке Google Ngram Viewer не идеален: в нем не распознана вся старая русская орфография до 1918 года, и поэтому там сложно найти и проанализировать слова, характерные, скажем, для произведений Тютчева и Достоевского. Почему бы не исправить эти ошибки?

Очень часто исследователи направления культуромики изучают тренды конкретных слов или эпохи, думая, что частоты будут меняться именно у этих слов и именно в эту эпоху. Но что если посмотреть на значительную часть датасета Google Ngrams глазами статистики и выявить общие тенденции пиков и спадов частот слов и словосочетаний, не имея никаких предубеждений? Вдруг машина поймет что-то на основе этих данных, до чего не может додуматься человек? Именно поэтому мы решили применить статистические методы к большим данным из Google Ngrams - с целью выявления аномалий в данных.

Также было бы здорово по колебаниям в частотах n-грамм или по тем же аномалиям делать автоматические предположения о возможном событии в культуре и истории, вызвавшем эти колебания. В этом нам могут помочь Викиданные.

Задачи проекта

1. Исправление орфографии в русских n-граммах до 1918 года из Google Books Ngram Viewer

Ожидаемый результат: исправленный датасет в открытом доступе.

Ответственная Митрофанова М.

2. Поиск статистических выбросов и трендов автоматически, который включает в себя выявление пиков и спадов частотности n-грамм; выявление слов и n-грамм с отрицательной корреляцией; другие потенциально интересные статистические наблюдения, о которых исследователь может не подумать.

Ответственная Пожидаева М.

3. Связывание Google n-грамм русского языка с базой Викиданных для автоматического предсказывания культурного события, повлиявшего на частотность.

Ответственная Николаева А.

Результат: примеры утверждений из Викиданных, совпавших по годам с ростом частот в Google ngrams, можно найти тут.

Научные статьи по проекту

  1. Статья Митрофановой М. по коррекции орфографии

  2. Подробный черновой вариант статьи Николаевой А. и Пожидаевой М. по статистической обработке и связыванию Google Ngrams с Викиданными. На с.3 указан основной пайплайн работы с Викиданными.

Презентации по проекту для НИСа

  1. Презентация проекта от Б.Орехова
  2. О чем проект
  3. Полезные статьи по теме проекта

Отчеты по встречам

см. Meeting_reports.md

Техническое задание

  1. Изначальное ТЗ
  2. Новое ТЗ

Тим-лидерство

Расписание тим-лидерства: https://docs.google.com/spreadsheets/d/1wkLXJOS6rsG5xUrja26ofORUhB5N80HYoJlb99h4KSA/edit#gid=0

Общение с куратором

По понедельникам

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published