Сам Cебе Культуролог, или Google Ngram Viewer.

Часть 1 – бэкграунд.

К своему стыду только сегодня узнал про нашумевший проект Culturomics, авторами которого являются исследователи из Гарвардского университета Эрез Либерман Айден и Жан-Баптист Мишель.

Концепт Culturomics заключается в том, чтобы использовать вычислительные методы анализа оцифрованных текстов для изучения поведенческих и культурных трендов.

Другими словами, анализируя то, как различные культурные феномены находят отражение в языке, в использовании конкретных слов и т.п., можно отслеживать много интересного.

Результатом семи лет исследований стала их совместная книга под названием “Uncharted: Big Data as a Lens on Human Culture”.

Идею Айдена и Мишеля сразу поддержали в лаборатории Google, и теперь программа Google Ngram Viewer доступна всем (https://books.google.com/ngrams). Программа анализирует чуть больше 5 миллионов книг, изданных между 1500 и 2008гг, и оцифрованных Google.

Часть 2 – эксперименты

NB: на всех графиках горизонтальная ось отвечает за год издания книги-источника, а вертикальная ось – за частоту появления слова или комбинации слов.

Уверен, что можно придумать намного более увлекательные запросы к Google Ngram Viewer, но вот несколько штук, которые я попробовал:

1) Дух исследования – почему-то в середине 1920х произошла резкая смена приоритета с вопроса “Что?” на вопрос “Как?”.

ngram1

2) Любовь к злодеям – в середине 1910х Волк одержал убедительную победу в популярности над Дедом Морозом и Снегурочкой, и удерживает лидерство по сей день.

ngram2

3) Жертвы маркетинга – в середине 2000х майонез просто порвал кетчуп

ngram3

4-5) Ну тут вроде всё понятно

ngram4

ngram5

P.S. кому интересно, вот линк на оригинальный TEDx Talk Мишеля и Айдена, очень прикольно –http://www.ted.com/talks/what_we_learned_from_5_million_books

More from the same category:

Leave a Reply