Яндекс — информация о компании — Индексирование интернета. Системы индексирования

Кристина Загорулько

Дек 21, 2015 | Время чтения: 6 мин

Задача любого сайта - донести до как можно большего количества людей информацию, которую он содержит. Продвижение сайта в поисковых системах (ПС) - наиболее эффективный способ это сделать. Один из этапов продвижения - индексация сайта, т. е. считывание всех данных с сайта, последующая их обработка алгоритмами поисковых систем и занесение результатов в базу данных.

Не зная кухни этого процесса, эффективно продвигать сайт невозможно. В этой статье мы расскажем, что происходит с информацией, собранной с ресурса в недрах ПС и как ее упаковать для лучшего усвоения. То есть расскажем о процессе индексирования и его улучшении.

Индексация сайта - что находится в начале

Если театр начинается с вешалки, то индексирование с того, что роботу поисковой системы необходимо сообщить, что в интернете появился новый ресурс. Сделать это можно двумя способами:

  1. Зарегистрировать сайт в поисковой системе вручную Яндексу (webmaster.yandex.ru/addurl.xml), Google (www.google.com/webmasters/tools/submit-url?hl=ru) и других поисковых системах, если они вас интересуют.
  1. Дать ссылку на сайт со стороннего интернет-ресурса (разумеется, тот уже должен быть зарегистрирован).

Первый способ предпочтительнее, так как в этом случае первая индексация с большой вероятностью произойдет раньше.

Отчего зависит частота индексирования и как ее ускорить

Сейчас в базе данных Яндекса больше триллиона (!) веб-адресов (каждая страница любого сайта имеет свой адрес). Разумеется, проиндексировать всю эту махину за один день - задача нереальная. Поэтому следует понимать, что индексация сайта происходит не каждый день, а с определенной периодичностью. Причем эта периодичность - величина непостоянная и зависящая от ряда факторов. И на практике получается, что одни ресурсы ПС индексируют чуть ли не ежедневно, а для других - поисковый робот редкий гость. Поэтому очень желательно, предпринять ряд действий, чтобы интервал между индексациями уменьшить. Тогда вы эффективнее будете продвигать свой сайт, так как быстрее сможете видеть результаты своих действий на нем и, соответственно, быстрее вносить коррективы.

Что влияет на эту оперативность?

  1. Загруженность сервера, где расположен сайт. Если он загружен множеством сайтов, а его технические характеристики не позволяют оперативно передавать информацию поисковому роботу, то последний будет его посещать реже. Отсюда рекомендация - хотите быстрой индексации, разместите свой интернет-ресурс на качественном хостинге.
  2. Частота обновления веб-страниц и всего сайта в целом. Чем чаще происходят обновления, тем чаще робот будет приходить на такой ресурс. Все вполне логично. Смысл часто приходить туда, где ничего не происходит? Только следует знать один нюанс. Робот будет приходить именно на те страницы, которые часто и обновляются. То есть, если хотите, чтобы оперативно оценивалась информация на главной странице вашего сайта ее и регулярно обновляйте. Самый простой способ - разместить на ней блок новостей.
  3. Посещаемость сайта и его посетителей. То есть, если посещаемость высокая и люди на ресурсе задерживаются долго, совершают внутренние переходы, то интервал между индексациями, безусловно, уменьшится.

Как видите, на все эти три фактора можно влиять в благоприятную для владельца сайта сторону.

Как узнать, что страница в индексе

Это далеко не праздный вопрос и не из серии: «Лучше любая информация, чем неизвестность». Ведь если точно знать, что индексация прошла, а позиции вашего сайта в выдаче не изменились, значить что-то вы делаете не так.

Проверить индексацию сайта можно несколькими способами:

  1. На сервисе Яндекс.Вебмастер («Проверить URL»). Здесь можно узнать:
    • когда произошла последняя индексация;
    • какой документ показывается посетителю в результате поиска;
    • рекомендации по ускорению индексации;
    • если страница отсутствует в поиске, то по каким причинам.
  2. Провести поиск при помощи следующего выражения: url:интересующий url, например, url: moi sairu/contacts
  3. Поиск при помощи оператора site:. Например, записав в поисковую строку site: moi site.ru вы получите список всех страниц вашего сайта, которые были проиндексированы.
  4. Проверить индексацию списка URL в .

Сервис SE Ranking предлагает также инструмент отслеживания выдачи заданного URL в поиске. Так что вы всегда будете знать, не выпала ли интересующая страница из индекса, а также выдается ли нужная страница по конкретному поисковому запросу.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта по строго определенному плану. Тут нет места импровизации. А где она берет этот план? Да на самом интернет-ресурсе! То есть вы можете указать ПС, что и как скачивать или не скачивать.

Файл robots.txt

Очень важный файл, в котором можно указать, какие страницы нельзя индексировать. Это очень важно, так как ни в коем случае нельзя позволять ПС считывать личную информацию пользователей: номера телефонов, паспортные данные, если таковые имеются и т. д. В противном случае владельцу сайта могут грозить крупные неприятности. Также, если у вас социальная сеть, особенно посвященная знакомствам, необходимо запретить индексацию страниц, где могут содержаться личные данные пользователей. Например, строка Disallow:/admin запретит роботу просматривать страницы, урл которых начинается со слова admin, а Disallow:/images запретит индексировать картинки.

Обязательно в robots.txt укажите адрес карты сайта sitemap. В этом случае вы будете уверены, что робот увидит все страницы вашего сайта, индексация которых не запрещена.

Типичные ошибки в файле robots.txt

  1. Ошибочный запрет к индексации некоторых страниц сайта.
  2. Код HTTP-ответа отличный от 200. Например, если при запросе страницы с файлом robots.txt поисковый робот получит HTTP-ответ, равный 403 («запрещено»), то он полностью проигнорирует содержимое файла robots.txt, в том числе на запрет индексации определенных страниц.
  3. Наличие кириллических символов в файле. Особенно часто такая ошибка стала появляться, когда появилась возможность записывать урл кириллическими буквами. Например, если в директиве Host (указывает на главное зеркало сайта) написать лютикицветочки.рф, то такая запись будет проигнорирована. В таких случаях необходимо такие урл передавать в юникоде.
  4. Размер файла txt превышает 32 кб.

В завершении по robots.txt заметим, что не обязательно сайт должен его иметь. Для простых одно-двухстраничных интернет ресурсов, например, такой файл будет лишним. Если же у вас он есть, то корректность его содержимого можно проверить на странице Яндекс.Вебмастер - webmaster.yandex.ru/robots.xml. Загружаете файл в специальную форму и видите, какие ошибки в нем есть.

Файл sitemap

В этом файле указывается, какие страницы подлежат индексации. Конечно, указать на них поисковому роботу можно и другими способами. Например, навигацией меню, « », внутренней перелинковкой.

Но, во-первых, если у вас есть лендинг пейдж, на которую можно попасть только по внешней ссылке, то проиндексировать ее можно только с помощью sitemap.

Во-вторых, в sitemap при помощи:

  • тега Можно указать приоритет индексации;
  • тега частоту обновления конкретной страницы.

Эта информация не директивная для робота, но обязательно будет принята им во внимание.

Типичные ошибки в файле sitemap

  1. Размещение sitemap на другом сайте. Часто это бывает, когда используется сервис для генерации такой файла. В этом случае сервис размещает карту вашего сайта у себя.
  2. На странице, где находится карта сайта, установлен редирект.
  3. Критические ошибки внутри файла sitemap. Например, отсутствует строка с указанием кодировки.

Проверить правильность файла sitemap на странице Яндекс.Вебмастер — webmaster.yandex.ru/ sitemaptest.xml.

Во второй части статьи: « Принципы индексирования сайта. Часть 2» мы поговорим о принципах работы с зеркалами, о дублях страниц, об ошибках при использовании HTTP-кодов. И еще раз подчеркнем, что правильная настройка индексации сайта может существенно помочь его продвижению.

Просмотры: 669

Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

– физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины "выпадения" сайта из выдачи или повышения позиций. Рассмотрим каждый процесс в отдельности.

Индексация - это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс - выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексации на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной . Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации.

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, ибо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику . Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц сайта

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Робот, определяющий зеркала , проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковой системы будет только один сайт - главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL » в Яндекс.Вебмастере.

Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

Важно понимать, что процесс индексации сайта является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.

Множество документов только в том случае является фондом библиотеки, если они должным образом организованы и их содержание раскрыто посредством системы каталогов, картотек, баз данных.

Организация фондов и создание каталогов невозможна без группировки документов и сведений о них в виде библиографического описания занесенного на каталожную карточку (бумажную и/или электронную). Реализовать эти технологические процессы возможно посредством аналитико-синтетической переработки информации о документах. Осуществление АСПИ позволяет упорядочить библиотечный фонд и осуществить каталогизацию: составить библиографические описания на документы и сгруппировать их по определенным признакам. Группировка документов и их библиографических описаний по различным признакам, или классификация, позволяет разносторонне раскрыть содержание фонда библиотечно-информационного учреждения.

Классификация учитывает определенные признаки документов, например, содержание, аспекты содержания, вид документа (учебное издание, справочное издание и т.д.), целевое и читательское назначение (справочное издание для младших школьников, учебное издание для вузов и т.д.). Каждая документная классификация «написана» на определенном информационно-поисковом языке. ИПЯ – это искусственный формализованный язык, на котором описаны признаки группировки документов и их библиографических описаний.

Процесс перевода информации о документе с естественного языка на ИПЯ осуществляется на основе индексирования, которое представляет собой выражение содержания и формы документов средствами определенного информационно-поискового языка. Чтобы произвести индексирование необходимо знать соответствующий информационно-поисковый язык.

Содержательное индексирование является сложным интеллектуальным процессом, требующим владения специальными умениями и навыками, а также наличия у индексаторов особых психологических качеств: логичности мышления, хорошей смысловой памяти, внимательности и трудолюбия. Эрудиция и стремление постоянно познавать новое является неотъемлемым качеством специалиста в области индексирования (каталогизатора, систематизатора).

Объектом индексирования является отдельный документ, его составная часть или совокупность документов. Индексирование должно производиться на основе непосредственного анализа документа с учетом характера информационно-поискового массива.



Процесс индексирования представляют в виде последовательности следующих операций:

1. Анализ. Просматривая содержание документа, индексатор определяет основную его тему, а также затронутые в нем второстепенные вопросы, которые могут представлять интерес для пользователя. При этом индексатор исходит из своего понимания точки зрения автора и круга интересов потенциальных потребителей информации.

2. Аннотирование. Мысленно составляется аннотация на индексируемый документ на естественном языке, в которую включаются ключевые слова, характеризующие данный документ и дается ответ на вопрос: «О чем рассказывается в документе?».

3. Классификационное решение в словесной форме . Ключевые слова заменяются лексическими единицами конкретного ИПЯ (классификационными индексами, предметными рубриками, дескрипторами). В результате создается поисковый образ документа и осуществляется свертывание информации и перевод информации о содержании и форме документа на информационно-поисковый язык.

4. Классификационное решение на ИПЯ. Составление полного индекса, предметной рубрики для алфавитно-предметного указателя, ключевых слов.

5. Редактирование индексов, предметных рубрик и ключевых слов.

6. Оформление принятого решения.

Качество индексирования характеризуется двумя показателями: глубиной и детальностью.

Глубина индексирования свидетельствует о полноте раскрытия содержания документа в присвоенном ему поисковом образе документа. Глубину индексирования можно приблизительно оценить числом слов ИПЯ, включенных в поисковый образ документа.

Детальность индексирования позволяет оценить точность (адекватность) отражения содержания документа в поисковом образе документа. Точность отражения определяется смысловой близостью ключевых слов, включенных в мысленную аннотацию, и слов информационно-поискового языка, образовавших поисковый образ документа.



Глубина и детальность являются относительными характеристиками. Можно говорить о большей или меньшей глубине и детальности индексирования, но измерить их в абсолютных цифровых величинах не представляется возможным.

Для отражения влияния психологических факторов на качество индексирования вводится понятие «непоследовательность (воспроизводимость) индексирования». Непоследовательность индексирования характеризуется расхождениями по глубине и детальности поисковых образов одного и того же документа, составленных различными индексаторами или одним и тем же индексатором в разное время. Причинами непоследовательности являются различия в знаниях и навыках различных индексаторов (общая эрудиция, ориентировка в данной области знания, владение ресурсами ИПЯ, опыт работы и т.д.), а также психологические качества (память, внимание и т.д.). Чтобы избежать непоследовательности, разрабатываются специальные методики, алгоритмические предписания, которыми руководствуются индексаторы. Тем не менее, при смысловой обработке информации человеком, непоследовательность исключить полностью невозможно.

Создание поискового образа документа один из ключевых этапов индексирования. Поисковый образ документа может состоять из одной лексической единицы ИПЯ, например, одного классификационного индекса или одного предметного заголовка. В этом случае применен простейший метод индексирования, который можно назвать одноаспектным индексированием. Такое индексирование обычно используется в небольших библиотеках при достаточно широком тематическом профиле и малой полноте наполнения документами отдельных тем, отраслей. Этот вид индексирования отличается простотой и экономичностью. Более значимым признаетсямногоаспектное индексирование, то есть построение при необходимости сложных поисковых образов документов, состоящих из нескольких лексических единиц ИПЯ.

Успешная реализация индексирования предполагает знание каталогизатором соответствующих информационно-поисковых языков и владение навыками общей и частной методики индексирования документов.

Итак, друзья, сегодня я продолжаю серию статей о поисковых системах. Эта — четвертая, в которой я изложу взгляд на поисковые системы изнутри, на технологию работы поисковых машин. Для чего? Как говорил один из моих комментаторов по поводу изучения их работы, — «врага надо знать в лицо»:). Что же, давайте изучим этого «врага» более детально и тщательно.

Для тех, кто не прочел предыдущие три статьи, вот ссылки: , .

А теперь читаем статью

Современные поисковые машины обрабатывают десятки тысяч обращений в
секунду. Как это это происходит?

Поисковые системы на физическом уровне

Современная поисковая машина - это сложнейшая структура, состоящая из сотен тысяч, а в Google - миллионов физических серверов. Вся , которая на них хранится, распределена и надежно защищена по дата-центрам всего мира.

Серверное помещение Яндекса

При своем зарождении, в «далеком» 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который располагался в кабинете одного из основателей компании и который был слабее любого современного домашнего компьютера! Представляете, как все быстро менялось, если уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось и, со временем, это привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр - это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Вот характерный пример: посещаемость только поиска Яндекса за февраль 2012 года составила 28,3 миллиона человек.

Логическая схема работы поисковых систем

Когда пользователь хочет что-то найти в интернете, он вводит запрос. Этот запрос обрабатывается «балансировщиком нагрузки» - специализированным устройством, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер . Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос перенаправляется в «метапоиск» . Эта система получает все необходимые данные и узнает, к какому типу данных этот запрос относится. На этом же этапе запрос проверяется на орфографию, здесь же определяется, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

Логическая схема обработки запроса Яндекса

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся весьма популярными в определенные моменты происходящие в мире и Сети (значимое событие, катастрофа или даже рекламная кампания нового продукта),некоторые популярны постоянно (например, связанные с событиями в социальных сетях). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений, показывает уже готовые результаты, вместо того чтобы формировать ответы заново. Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы , разбитый на отдельные части и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера. По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования «Матрикснет» , который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.

А теперь перейдем к наиболее животрепещущему вопросу для каждого обладателя сайта и выясним. как же происходит

Процесс индексирования

Индексация - это такой процесс, во время которого поисковые роботы «совершают поход» по сайтам и собирают с их страниц разнообразную информацию и заносят ее в специальные базы данных. Вот завести с ними личное знакомство! 🙂 Потом эти данные каким-то образом обрабатываются, и по ним строится индекс - выжимка из документов(веб страниц). Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.
Рассмотрим процесс индексирования на примере Яндекса. В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной.
Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

Последовательность процессов индексирования Яндекса.

Документы в индекс попадают двумя способами:

1) Автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам,

2) Либо владелец сайта может сам добавить URL через специальную форму(«аддурилка») или через установленную на сайте Яндекс.Метрику. Этот передает url страниц на индексацию Яндексу. При желании можно не устанавливать код Метрики на сайт или отключить данную опцию ее в интерфейсе.

Честно говоря, я не могу сказать, способствует ли Метрика Яндекса более быстрому индексированию страниц сайтов и мнения вебмастеров по поводу ее работы диаметрально противоположны: от хвалебных од, до бескомпромиссной критики. Некоторые считают ее действие положительно сказывается на скорости индексаци, некоторые — что она тормозит этот процесс. Комментаторы, делитесь личным опытом и наблюдениями!

А теперь мы плавно перешли к понятию

Скорость индексации и обновления страниц

В идеале, вновь созданная страница должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют скорость индексации новых страниц и обновления старых. Роботы поисковых систем постоянно обновляют поисковую базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковой машины, документы. Однако для некоторых типов информации такая скорость обновление неприемлема. Например процесс индексирования новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот» , который посещает новостные сайты несколько раз в день.

Не думайте, что поисковые роботы лентяи — они стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.
Robots.txt - это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности.
Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow - за индексацию ссылок. Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах. Существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в
определенных блоках и т.д.

Типы роботов поисковых систем

Среди всех существующих поисковых роботов стоит выделить четыре основных:
➜➜ индексирующий робот,
➜➜ робот по изображениям,
➜➜ робот по зеркалам сайта;
➜➜ робот, проверяющий работоспособность сайта или страницы.
Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность
робота с помощью идентификации, основанной на обратных DNS-запросах.

Определить, какой робот к тебе
зашел, можно с помощью лог-
файла, который обычно доступен
либо в админке, либо на ftp. Все
существующие роботы представ-
ляются по одной схеме, но каж-
дый имеет свое название. На-
пример: «Mozilla/5.0 (compatible;
YandexBot/3.0; +http://yandex.
com/bots)» - основной индекси-
рующий робот Яндекса.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска. Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google. Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт - главное зеркало.

Существуют так же другие твиды индексирующих роботов: индексаторы видео; пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках новостных сайтов и др.
Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений может оказаться видимым только через 1-2 недели. Существует еще специальный робот, который проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер.

Что бы не утомлять вас более очень длинной статьей, просто скажу, что

Продолжение следует…

(Visited 10 times, 1 visits today)



Просмотров