Часть 1 – бэкграунд.
К своему стыду только сегодня узнал про нашумевший проект Culturomics, авторами которого являются исследователи из Гарвардского университета Эрез Либерман Айден и Жан-Баптист Мишель.
Концепт Culturomics заключается в том, чтобы использовать вычислительные методы анализа оцифрованных текстов для изучения поведенческих и культурных трендов.
Другими словами, анализируя то, как различные культурные феномены находят отражение в языке, в использовании конкретных слов и т.п., можно отслеживать много интересного.
Результатом семи лет исследований стала их совместная книга под названием “Uncharted: Big Data as a Lens on Human Culture”.
Идею Айдена и Мишеля сразу поддержали в лаборатории Google, и теперь программа Google Ngram Viewer доступна всем (https://books.google.com/ngrams). Программа анализирует чуть больше 5 миллионов книг, изданных между 1500 и 2008гг, и оцифрованных Google.
Часть 2 – эксперименты
NB: на всех графиках горизонтальная ось отвечает за год издания книги-источника, а вертикальная ось – за частоту появления слова или комбинации слов.
Уверен, что можно придумать намного более увлекательные запросы к Google Ngram Viewer, но вот несколько штук, которые я попробовал:
1) Дух исследования – почему-то в середине 1920х произошла резкая смена приоритета с вопроса “Что?” на вопрос “Как?”.
2) Любовь к злодеям – в середине 1910х Волк одержал убедительную победу в популярности над Дедом Морозом и Снегурочкой, и удерживает лидерство по сей день.
3) Жертвы маркетинга – в середине 2000х майонез просто порвал кетчуп
4-5) Ну тут вроде всё понятно
P.S. кому интересно, вот линк на оригинальный TEDx Talk Мишеля и Айдена, очень прикольно –http://www.ted.com/talks/what_we_learned_from_5_million_books