Объяснение технологий

Как работают поисковые системы?

Как работают поисковые системы?

Статья обновлена ​​Джоэлем Ли 10.10.2017

Разблокируйте чит-лист «Лучшие сочетания клавиш поиска Google» прямо сейчас!

Это подпишет вас на нашу рассылку

Введите адрес электронной почты

Для многих Google это интернет. Это отправная точка для поиска новых сайтов и, возможно, самое важное изобретение со времен самого Интернета. Без поисковых систем новый веб-контент был бы недоступен для масс.

Но знаете ли вы, как работают поисковые системы? Каждая поисковая система имеет три основные функции: сканирование (для обнаружения контента), индексирование (для отслеживания и хранения контента) и поиск (для извлечения релевантного контента, когда пользователи запрашивают поисковую систему).

ползком

Сканирование — это то, с чего все начинается: сбор данных о веб-сайте.

Это включает сканирование сайтов и сбор сведений о каждой странице: заголовки, изображения, ключевые слова, другие связанные страницы и т. Д. Разные сканеры могут также искать разные детали, например макеты страниц, где размещаются рекламные объявления, размещены ли ссылки и т. Д.

Но как сайт сканируется? Автоматический бот (так называемый «паук») посещает страницу за страницей как можно быстрее, используя ссылки на страницы, чтобы найти, куда идти дальше. Даже в самые ранние дни пауки Google могли читать несколько сотен страниц в секунду. В настоящее время это тысячи.

Как работают поисковые системы? диаграмма веб-сканера

Когда веб-сканер посещает страницу, он собирает все ссылки на странице и добавляет их в свой список следующих страниц для посещения. Он переходит на следующую страницу в своем списке, собирает ссылки на этой странице и повторяет. Сканеры также время от времени возвращаются на прошлые страницы, чтобы увидеть, произошли ли какие-либо изменения.

Это означает, что любой сайт, связанный с проиндексированным сайтом, будет в конечном итоге сканироваться. Некоторые сайты сканируются чаще, а некоторые — на большую глубину, но иногда сканер может отказаться, если иерархия страниц сайта слишком сложна.

Один из способов понять, как работает веб-сканер, — это создать его самостоятельно. Мы написали учебник по созданию базового веб-сканера на PHP , поэтому проверьте, есть ли у вас опыт программирования.

Как работают поисковые системы? поиск в Google на планшете

Обратите внимание, что страницы могут быть помечены как «noindex», что похоже на просьбу поисковых систем пропустить индексацию. Неиндексированные части Интернета известны как «глубокая сеть». , и некоторые сайты, например, размещенные в сети TOR, не могут быть проиндексированы поисковыми системами. ( Что такое TOR и луковая маршрутизация? )

индексирование

Индексирование — это когда данные из обхода обрабатываются и помещаются в базу данных.

Представьте себе, что вы составляете список всех ваших книг, их издателей, их авторов, их жанров, количества страниц и т. Д. Сканирование — это когда вы просматриваете каждую книгу, а индексирование — когда вы регистрируете их в своем списке.

А теперь представьте, что это не просто комната, полная книг, а каждая библиотека в мире. Это небольшая версия того, что делает Google, которая хранит все эти данные в огромных центрах обработки данных с тысячами петабайтных дисков.

Вот загляните в один из поисковых центров данных Google:

Как работают поисковые системы? центры поиска Google
Кредит изображения: Google

Поиск и рейтинг

Поиск — это когда поисковая система обрабатывает ваш поисковый запрос и возвращает наиболее релевантные страницы, соответствующие вашему запросу.

Большинство поисковых систем дифференцируют себя с помощью своих методов поиска: они используют разные критерии, чтобы выбирать, какие страницы лучше всего соответствуют тому, что вы хотите найти. Вот почему результаты поиска в Google и Bing различаются, и поэтому Wolfram Alpha так уникально полезен. .

Алгоритмы ранжирования проверяют ваш поисковый запрос по миллиардам страниц, чтобы определить релевантность каждого из них. Компании защищают свои алгоритмы ранжирования как запатентованные отраслевые секреты из-за их сложности. Лучший алгоритм означает лучший опыт поиска.

Они также не хотят, чтобы веб-разработчики играли в систему и несправедливо поднимались на вершины результатов поиска. Если бы внутренняя методология поисковой системы когда-либо использовалась, все люди наверняка использовали бы эти знания в ущерб таким поисковикам, как вы и я.

Как работают поисковые системы? ручка html мета поисковой системы
Имиджевый кредит: фотовибы через Shutterstock

Использование поисковой системы, конечно, возможно, но теперь уже не так просто.

Первоначально поисковые системы ранжировали сайты по тому, как часто ключевые слова появлялись на странице, что приводило к «заполнению ключевых слов» — заполнению страниц бессмысленной чепухой.

Затем появилась концепция важности ссылок: поисковые системы оценивали сайты с большим количеством входящих ссылок, потому что они интерпретировали популярность сайта как релевантность. Но это привело к спаму ссылок во всем Интернете. В настоящее время поисковые системы весят ссылки в зависимости от «авторитета» сайта ссылок. Поисковые системы больше ценят ссылки из правительственного агентства, чем ссылки из каталога ссылок.

Сегодня алгоритмы ранжирования окутаны еще большей загадкой, чем когда-либо прежде, и «поисковая оптимизация» не так важно. Хорошие рейтинги в поисковых системах теперь основаны на высококачественном контенте и отличном пользовательском опыте.

Что дальше для поисковых систем?

Ах, теперь есть интересный вопрос. Ответ — «семантика»: значение содержания страницы. Вы можете прочитать больше о нашем обзоре семантической разметки и ее будущего влияния. семантическая разметка и семантическая разметка и

Но вот суть этого.

Прямо сейчас вы можете искать «безглютеновые куки», но результаты могут вернуть рецепты безглютеновых куки. Вместо этого вы можете найти обычные рецепты печенья с надписью «Этот рецепт не без глютена». У него правильные ключевые слова, но неправильное значение.

С помощью семантики вы можете искать рецепты печенья, а затем удалять определенные ингредиенты: муку, орехи и т. Д. Вы также можете сузить результаты до рецептов, время приготовления которых не превышает 30 минут, и просматривать оценки 4/5 или более. Это было бы круто, верно? Вот куда мы направляемся!

Все еще не понимаете, как работают поисковые системы? Посмотрите, как Google объясняет этот процесс:

Если вам это интересно, вам также может быть интересно узнать, как работают поисковые системы для изображений .

Кредит изображения: prykhodov / Depositphotos

Похожие посты
Объяснение технологий

Как работает жесткий диск? [Технология объяснила]

Объяснение технологий

Что такое программное обеспечение с открытым исходным кодом? [MakeUseOf Объясняет]

Объяснение технологий

Разрешения графического дисплея - что означают цифры? [MakeUseOf Объясняет]

Объяснение технологий

Как переформатировать внешний жесткий диск, не теряя на нем все