Статья обновлена Джоэлем Ли 10.10.2017
Для многих Google — это интернет. Это отправная точка для поиска новых сайтов и, возможно, самое важное изобретение со времен самого Интернета. Без поисковых систем новый веб-контент был бы недоступен для масс.
Но знаете ли вы, как работают поисковые системы? Каждая поисковая система имеет три основные функции: сканирование (для обнаружения контента), индексирование (для отслеживания и хранения контента) и поиск (для извлечения релевантного контента, когда пользователи запрашивают поисковую систему).
ползком
Сканирование — это то, с чего все начинается: сбор данных о веб-сайте.
Это включает сканирование сайтов и сбор сведений о каждой странице: заголовки, изображения, ключевые слова, другие связанные страницы и т. Д. Разные сканеры могут также искать разные детали, например макеты страниц, где размещаются рекламные объявления, размещены ли ссылки и т. Д.
Но как сайт сканируется? Автоматический бот (так называемый «паук») посещает страницу за страницей как можно быстрее, используя ссылки на страницы, чтобы найти, куда идти дальше. Даже в самые ранние дни пауки Google могли читать несколько сотен страниц в секунду. В настоящее время это тысячи.
Когда веб-сканер посещает страницу, он собирает все ссылки на странице и добавляет их в свой список следующих страниц для посещения. Он переходит на следующую страницу в своем списке, собирает ссылки на этой странице и повторяет. Сканеры также время от времени возвращаются на прошлые страницы, чтобы увидеть, произошли ли какие-либо изменения.
Это означает, что любой сайт, связанный с проиндексированным сайтом, будет в конечном итоге сканироваться. Некоторые сайты сканируются чаще, а некоторые — на большую глубину, но иногда сканер может отказаться, если иерархия страниц сайта слишком сложна.
Один из способов понять, как работает веб-сканер, — это создать его самостоятельно. Мы написали учебник по созданию базового веб-сканера на PHP , поэтому проверьте, есть ли у вас опыт программирования.
Обратите внимание, что страницы могут быть помечены как «noindex», что похоже на просьбу поисковых систем пропустить индексацию. Неиндексированные части Интернета известны как «глубокая сеть». , и некоторые сайты, например, размещенные в сети TOR, не могут быть проиндексированы поисковыми системами. ( Что такое TOR и луковая маршрутизация? )
индексирование
Индексирование — это когда данные из обхода обрабатываются и помещаются в базу данных.
Представьте себе, что вы составляете список всех ваших книг, их издателей, их авторов, их жанров, количества страниц и т. Д. Сканирование — это когда вы просматриваете каждую книгу, а индексирование — когда вы регистрируете их в своем списке.
А теперь представьте, что это не просто комната, полная книг, а каждая библиотека в мире. Это небольшая версия того, что делает Google, которая хранит все эти данные в огромных центрах обработки данных с тысячами петабайтных дисков.
Вот загляните в один из поисковых центров данных Google:
Поиск и рейтинг
Поиск — это когда поисковая система обрабатывает ваш поисковый запрос и возвращает наиболее релевантные страницы, соответствующие вашему запросу.
Большинство поисковых систем дифференцируют себя с помощью своих методов поиска: они используют разные критерии, чтобы выбирать, какие страницы лучше всего соответствуют тому, что вы хотите найти. Вот почему результаты поиска в Google и Bing различаются, и поэтому Wolfram Alpha так уникально полезен. .
Алгоритмы ранжирования проверяют ваш поисковый запрос по миллиардам страниц, чтобы определить релевантность каждого из них. Компании защищают свои алгоритмы ранжирования как запатентованные отраслевые секреты из-за их сложности. Лучший алгоритм означает лучший опыт поиска.
Они также не хотят, чтобы веб-разработчики играли в систему и несправедливо поднимались на вершины результатов поиска. Если бы внутренняя методология поисковой системы когда-либо использовалась, все люди наверняка использовали бы эти знания в ущерб таким поисковикам, как вы и я.
Использование поисковой системы, конечно, возможно, но теперь уже не так просто.
Первоначально поисковые системы ранжировали сайты по тому, как часто ключевые слова появлялись на странице, что приводило к «заполнению ключевых слов» — заполнению страниц бессмысленной чепухой.
Затем появилась концепция важности ссылок: поисковые системы оценивали сайты с большим количеством входящих ссылок, потому что они интерпретировали популярность сайта как релевантность. Но это привело к спаму ссылок во всем Интернете. В настоящее время поисковые системы весят ссылки в зависимости от «авторитета» сайта ссылок. Поисковые системы больше ценят ссылки из правительственного агентства, чем ссылки из каталога ссылок.
Сегодня алгоритмы ранжирования окутаны еще большей загадкой, чем когда-либо прежде, и «поисковая оптимизация» не так важно. Хорошие рейтинги в поисковых системах теперь основаны на высококачественном контенте и отличном пользовательском опыте.
Что дальше для поисковых систем?
Ах, теперь есть интересный вопрос. Ответ — «семантика»: значение содержания страницы. Вы можете прочитать больше о нашем обзоре семантической разметки и ее будущего влияния. семантическая разметка и семантическая разметка и
Но вот суть этого.
Прямо сейчас вы можете искать «безглютеновые куки», но результаты могут вернуть рецепты безглютеновых куки. Вместо этого вы можете найти обычные рецепты печенья с надписью «Этот рецепт не без глютена». У него правильные ключевые слова, но неправильное значение.
С помощью семантики вы можете искать рецепты печенья, а затем удалять определенные ингредиенты: муку, орехи и т. Д. Вы также можете сузить результаты до рецептов, время приготовления которых не превышает 30 минут, и просматривать оценки 4/5 или более. Это было бы круто, верно? Вот куда мы направляемся!
Все еще не понимаете, как работают поисковые системы? Посмотрите, как Google объясняет этот процесс:
Если вам это интересно, вам также может быть интересно узнать, как работают поисковые системы для изображений .
Кредит изображения: prykhodov / Depositphotos