Ngram, также называемый N-граммой, представляет собой статистический анализ текста или речевого содержимого, чтобы найти n (число) какого-либо элемента в тексте.
Элемент поиска может быть любым, включая фонемы, префиксы, фразы и буквы. Хотя Ngram неясен за пределами исследовательского сообщества, он используется во многих областях и имеет много последствий для разработчиков, которые кодируют компьютерные программы, которые понимают естественный разговорный язык и реагируют на него .
В случае средства просмотра Google Книг Ngram анализируемый текст взят из огромного количества книг в открытом доступе, которые Google отсканировал, чтобы заполнить свою поисковую систему Google Книги . Для программы просмотра Google Книг Ngram Google относится к тексту, который вы собираетесь искать, как к корпусу . Ngram Viewer агрегирует по языкам, хотя вы можете отдельно анализировать британский и американский английский или объединять их вместе.
Как работает Ngram Viewer
-
Перейдите в средство просмотра Google Книг на Ngram по адресу books.google.com/ngrams .
-
Введите любую фразу или фразы, которые вы хотите проанализировать. Разделяйте каждую фразу запятой. Google предлагает «Альберт Эйнштейн, Шерлок Холмс, Франкенштейн», чтобы вы начали.
В поисках NGram Viewer элементы чувствительны к регистру, в отличие от поисковых запросов Google.
-
Выберите диапазон дат. По умолчанию от 1800 до 2000.
-
Выберите корпус. Вы можете искать тексты на иностранных языках или тексты на английском языке, и в дополнение к стандартным вариантам вы можете заметить такие записи, как «Английский (2009)» или «Американский английский (2009)» внизу списка. Это старые версии, которые Google обновил с тех пор, но у вас может быть причина для сравнения со старыми наборами данных. Большинство пользователей могут игнорировать их и сосредоточиться на самых последних корпусах.
-
Установите уровень сглаживания. Сглаживание относится к тому, насколько гладким является график в конце. Наиболее точное представление отражает уровень сглаживания 0, но этот параметр может быть трудным для чтения. По умолчанию установлено значение 3. В большинстве случаев вам не нужно настраивать его.
-
Нажмите Поиск много книг .
Используя Google Ngram Viewer, вы можете углубиться в данные. Если вы хотите искать глагол fish вместо существительного fish , вы можете сделать это с помощью тегов. В этом случае вы будете искать fish_VERB.
Google предоставляет полный список команд и другой расширенной документации для использования с Ngram Viewer на своем веб-сайте.
Что показывает Ngram?
Google Книги Ngram Viewer выводит график, который представляет использование определенной фразы в книгах во времени. Если вы ввели более одного слова или фразы, каждое из них представлено цветной линией, чтобы контрастировать с другими поисковыми терминами. Это похоже на Google Trends , только поиск охватывает более длительный период.
Тематическое исследование
Рассмотрим пример с уксусными пирогами. Они упоминаются в Домике Лоры Ингаллс Уайлдер в сериале « Прерия ». Изучение с помощью веб-поиска Google, чтобы узнать больше о пирогах с уксусом, показывает, что они считаются частью американской южной кухни и действительно сделаны с уксусом. Они обращают внимание на времена, когда не у всех был доступ к свежим продуктам в любое время года, но так ли это на самом деле?
Поищите в Google Ngram Viewer уксусный пирог, и вы увидите некоторые упоминания о пироге как в начале, так и в конце 1800-х годов, много упоминаний в 1940-х годах и растущее число упоминаний в последнее время. Однако с уровнем сглаживания 3 вы видите плато над упоминаниями 1800-х годов. Поскольку за это время было опубликовано не так много книг, а поскольку данные настроены на сглаживание, изображение искажается. Вероятно, только одна книга упоминала пирог с уксусом, и он был усреднен, чтобы избежать всплеска. Установив сглаживание на 0, вы можете видеть, что это именно тот случай. Пик центрируется в 1869 году, и есть еще один пик в 1897 и 1900 годах.
Маловероятно, что в остальное время никто не говорил о пирогах с уксусом: вероятно, были повсюду рецепты, но люди не писали о них в книгах, и это является важным ограничением поисков Ngram.