Страницы в индексе поисковика. Проблемы с индексацией: основные виды лишних страниц в индексе, причины и пути решения. Как проверить последний кеш страницы в Google

Всем привет! Давно не писал в блог, причиной тому является завершающий этап разработки сайта студии. Совсем скоро он будет доделан и я его всем покажу Но вернемся к теме нашего разговора, а он очень важен. Сегодня мы поговорим о мусорных страницах в индексе. Мусор сильно препятствует активному росту позиций и посещаемости сайта, что особенно актуально для старых сайтов, которые давно продвигаются. Сразу скажу, что в таких случаях чистка мусора и доведение индексации до идеала само по себе позволяет увеличить посещаемость. Иногда на 20%, иногда в несколько раз, но в любом случае результат всегда очень и очень значительный. Вот вам .

Как вы можете зарегистрировать сайт в поисковых системах?

Все чаще и чаще возникает вопрос, почему некоторые веб-сайты всегда находятся на переднем плане, а другие теряются навсегда. «Переход в онлайн» - это только начало пути для типичного веб-проекта. Это приводит нас к ряду других вопросов. Например, вы должны отправить сайт в поисковые системы. Или как долго проходит процесс сканирования? Надеюсь, эта информация предоставит нам более ясную информацию. А теперь немного теории.

Вышеуказанный метод позволяет одновременно отправлять только один сайт. В отличие от предыдущего метода, инструменты для веб-мастеров позволяют сразу вводить несколько веб-страниц, отправляя карту сайта. Все, что вам нужно сделать - выполнить следующие простые шаги.

Еще один интересный случай — тысячи мусорных страниц после XSS атак, с которыми сталкиваются многие и даже один из моих сайтов недавно попал под атаку. Особенно примечательно тут, что даже после детальной чистки Яндекс может держать такие страницы в индексе месяцами, а Гугл годами и это становится серьезнейшей проблемой при продвижении.

Находим лишние страницы в индексе

Как только ваша поисковая система была создана бесплатно, обычно требуется некоторое время для индексации веб-сайта. Чтобы проверить, были ли индексированы поисковые системы, используйте их сайт. Таким образом, вы можете проверить, сколько страниц уже проиндексировано или какая-то страница уже была проиндексирована.

Если использование сайта не приводит к результатам, их сайт, вероятно, не был проиндексирован поисковыми системами. Это абсолютно нормально, если ваш сайт не отображается в результатах поиска в первый день. Тем не менее, если это не произошло в течение недели или двух, может возникнуть проблема, которая должна быть исправлена.

Сегодня мы в подробностях разберем причины возникновения мусора и дисбаланса в индексации, а так же поговорим о путях решения этих проблем!

Чем грозят проблемы с индексацией сайта

Наиболее подвержены появлению лишних страниц в индексе именно интернет магазины и зачастую число ненужных страниц значительно превышает число уникальных и полезных, ввиду чего сайт в глазах поисковой системы является откровенной помойкой и ни о каком росте посещаемости тут и говорить не приходится и не важно, какие качественные ссылки вы покупаете, какой дополнительный маркетинг проводите — сайт не будет расти по сео, пока вы не наведете порядок.

Наиболее распространенные ошибки

Если количество представленных страниц отличается от количества проиндексированных страниц, убедитесь, что пропущенные веб-страницы не имеют никаких ошибок. Этот файл можно использовать для определения того, как веб-страница может быть посещена веб-искателем. Помимо технических проблем, их веб-сайт не может быть проиндексирован из-за отсутствия ценности. Это означает, что качество их контента необходимо пересмотреть и улучшить, чтобы предоставить пользователям больше актуальности и ценности.

Причины для входа в поисковую систему

Поисковые системы используют разные источники, чтобы поддерживать их индекс в актуальном состоянии.

Так же стоит заметить еще один важнейший аспект — плавность индексации, когда число страниц в индексе Яндекс и Гугл имеют близкие значения (стоит отметить тот факт, что данный параметр является очень важным и при выборе донора для размещения внешних ссылок). Наиболее частая картина, когда в Яндекс все замечательно, а вот Гугл наелся мусора до отвала и причина не ясна, ведь все вроде бы закрыто в роботс. Но проблема тут именно в самом роботс для Гугла. Данный вопрос я поднимал в .

Проверить индексацию страницы - операторы

Это может сэкономить много времени. Вскоре поисковые роботы ищут новые ссылки, которые добавляются на веб-страницы, а затем проверяют, куда они ведут. Если они в конечном итоге приводят к чему-то полезному, страницы добавляются в индекс. Благодаря набору инструментов, которые обнаруживают ошибки и потенциальные проблемы для устранения ошибок 404, когда они произошли. Как правило, поисковые системы довольно хороши при индексировании веб-страниц. Тем не менее, ручное представление гарантирует, что их ресурсы будут обнаружены поисковыми искателями в любом случае.

На данном этапе важно понять — если у сайта есть проблемы с индексацией — его продвижение крайне затруднено и требует повышенных бюджетов!

Находим лишние страницы в индексе

Прежде всего необходимо определить сколько же у сайта реально существует страниц. Для этого необходимо использовать .

После того, как мы примерно представляем реальное число страниц сайта — необходимо обратиться к поисковой выдаче Яндекс и Гугл, чтобы увидеть число страниц в индексе (ВАЖНО : не стоит смотреть индексацию в Яндекс Вебмастер — он всегда пишет не актуальное значение). Только непосредственные запросы к поисковой системе!

Пожалуйста, имейте в виду, что запись в поисковой системе гарантировала пока высокий рейтинг в поисковых системах. Регулярно, когда мы берем управление сайтом, мы обходим владельца. Это позволяет получить представление о количестве страниц, присутствующих на сайте, и в определенной степени «оценено» поисковой системой. Это упрощает устранение большого количества дубликатов записей в базе данных поисковых систем.

Практический случай, описанный в этом сообщении, объяснит. Контроль очень хорошо известен и очень прост в эксплуатации. Наша статья относительно молода по сравнению с сайтом, и полученный результат не очень высок. Предположим для примера, что оценка, полученная для нашего сайта, была проиндексирована на 545 страниц, что примерно в 10 раз больше, чем реальность. Если вы хотите, вы можете перезапустить поиск, включив проигнорированные страницы.

Для Яндекс:

url:www.домен /* | url:домен /* | url:домен | url:www.домен

Для Гугл:

site:домен

Теперь мы знаем 3 основных показателя:

  • Реальное число страниц сайта
  • Число страниц сайта в Яндексе Гугл
  • Число страниц сайта в индексе Яндекс

На базе этого можно увидеть следующие сюжеты:

  • Реальное число страниц больше, чем число страниц в индексе Яндекс и Google

Самая безобидная ситуация, на основе которой можно сделать 2 вывода — сайт еще не был полностью проиндексирован (скорее всего именно так и произошло). Либо же индексацию сайта сильно затрудняет неправильная структура, что все-таки маловероятно. Данная проблема легко лечится добавлением сайтмап html.

Нажмите на слова «перезапустить поиск, включая игнорируемые страницы». Эти параметры требуют вариантов, которые могут. Нет проблем, если мы хотим добавить страницу с одной страницей или одну, содержащую только несколько подстраниц. Трудности возникают, когда в домене Интернета есть тысячи сайтов.

Индексирование веб-страниц

Магазин работает уже несколько лет, поэтому на него не влияют новые проблемы с доменом. Результаты показывают, какие адреса не находятся в поисковой системе. Таблицу ниже для сводки. Интересно, что каждый из этих адресов имеет ссылку с главной страницы и постоянно помещается в меню навигации магазина. Статьи находятся в иерархии на один уровень ниже. Вы должны перейти в раздел статьи, где вы можете перейти к каждой статье.

Возможны частные случаи в виде бана поисковыми системами, либо ошибках в переадресации, что будет обусловлено стабильным выпадением страниц из индекса и далее. Такие случаи очень редки.

  • Реальное число страниц примерно равно числу страниц в Яндекс, но в Гугл страниц намного больше

Классическая ситуация, когда вебмастер все сделал вроде бы и правильно, но не учел, что Гугл не смотрит на robots. Все директивы, прописанные в роботс необходимо заменить тегами, запрещающими индексацию вроде meta robots, canonical и т.д.

Как проверить количество проиндексированных Гуглом страниц

В интернет-магазине более месяца назад было добавлено обновление для добавления. Они были установлены ранее, но в результате изменений программного обеспечения они были в течение некоторого времени. Для ручной проверки одного адреса требуется, чтобы из результатов поиска была прочитана копия, и посмотрите, где указывается дата и время последней версии индексированного адреса.

Вы можете автоматизировать процесс, чтобы не нажимать тысячи раз, когда вы проверили сотни или тысячи адресов. Небольшой трюк позволяет вам найти шаблон, который позволит вам подготовить все копии для чтения только для чтения. Запрошенная информация - это дата и время последней копии страницы.

Частный случай — наличие на хостинге группы страниц на которые не ведет ни одна внутренняя ссылка с сайта. То-есть не подразумевалось вообще, что эти страницы должны индексироваться, но google умеет и такое

  • Реальное число страниц меньше, чем в индексе обоих поисковиков. Число страниц в Яндекс примерно равно числу страниц в Google

Очень простая ситуация, которая, как правило, актуальна именно для интернет магазинов и обусловлена отсутствием canonical. В индекс попадают страницы сортировок, пагинаций, печати.

К сожалению, этот инструмент имеет свои ограничения в скорости и количестве. Тем не менее, он больше не может решать дополнительные вопросы, требующие человеческого присутствия. Он помогает войти в новую учетную запись, где дополнительные вопросы авторизации исчезают, но уже в шестой раз они появляются снова.

Подклейка домена, как серьезный аргумент

Это не дубликаты, а дублированный контент. Вскоре будет ясно, какой метод наиболее эффективен, нужно ли было объединить его и что оно принесло. Свяжитесь с нами сегодня! Подпишитесь на рассылку новостей, заполнив поля ниже. Вам будет отправлено письмо с подтверждением: ознакомьтесь с инструкциями по подтверждению подписки.

  • Реальное число страниц меньше, чем в индексе обоих поисковиков. В Google страниц больше, чем в Яндекс

Вполне стандартная ситуация, которая как правило обусловлена неправильным закрытием технических страниц и страниц сортировок плюс все из прошлого пункта.

  • Реальное число страниц меньше, чем в индексе обоих поисковиков. В Яндекс страниц больше, чем в Гугл

Сложная ситуация — необходимо детально изучать проблему!

На данном этапе картина начинает проясняться и мы уже можем делать предварительные выводы и прогнозировать необходимые действия. Главной задачей следующего этапа становится непосредственное обнаружение основных источников мусора.

Копаем глубже

Самое главное теперь понять, откуда именно взялись лишние страницы. А именно найти причину насыщения индекса мусором. Для этого используем команды из главы Находим мусор , только вместо домен вбиваем каждый раз адреса категорий сайта. Результатом этой долгой и кропотливой работы станет обнаружение именно тех разделов, которые имеют больше всего лишних страниц в индексе.

Так же не лишним будет вручную полистать выдачу поисковой системы — иногда именно так проще всего обнаружить мусор.

Особую сложность представляют последствия XSS атак, т.к. мусор, возникший таким образом зачастую не имеет внутренних ссылок, ввиду чего невозможно обнаружение таких страниц путем выгрузки Xenu. В данном случае нам может помочь раздел Индексация в панели Вебмастера Яндекс и Гугл, где поисковая система строит структуру взаимосвязей внутри сайта.

Резюмируя стоит выделить 3 основных инструмента:

  1. ручная проверка выдачи
  2. проверка индексации по категориям сайта
  3. раздел Индексация в панели вебмастера Яндекс и Гугл

Выбираем метлу

Самое сложное позади. Теперь мы знаем откуда взялся мусор и чем он вызван. Следующим шагом необходимо выбрать правильный инструмент очистки. Бесспорно, лучшим инструментом является физическое отключение мусорных страниц, но это не всегда возможно, ведь зачастую такие страницы действительно нужны, например пагинация или фильтры у интернет магазина. Если страницы невозможно физически убрать — необходимо дать роботу запрет на индексацию таких станиц, но тут и речи не может быть о robots txt — данный файл крайне малоэффективен. Самая сильная директива, которой одинаково покорны и Яндекс и Google это тег meta robots, который прописывается в контейнере HEAD. Внутри этого тега мы можем полностью запретить индексацию мусорных страниц.

В некоторых случаях стоит использовать canonical, который актуален во всех случаях пагинаций и сортировок. Суть каноникла — мы указываем материнскую страницу для всех дочерних, в случае с пагинацией это первая страница раздела. В итоге робот будет четко понимать что представляют из себя такие страницы и уберет их из индекса.

Ускоряем переиндексацию

Причины возникновения мусора мы убрали, но поисковые системы об этом пока не знают. И без нашей помощи могут узнать только через несколько месяцев, а в случае с google данная процедура может растянуться на пол года и более. Но мы можем помочь поисковой системе, использовав следующие советы:

О подклейке мы поговорим чуть подробнее:

Подклейка домена, как серьезный аргумент

Даже правильно настроенные запреты на индексацию совсем не означают то что поисковики быстро приведут индексацию вашего сайта в порядок. Иногда этот процесс может занимать долгие месяцы. А если у вашего сайта реальных страниц не более 100, а в индексе тысячи страниц, как например после XSS атаки — нет смысла терять потенциальный трафик и ждать несколько месяцев. Намного эффективнее будет использовать методику подклейки домена.

Для этого необходимо купить новый домен и перенести на него сайт, а прошлый домен постранично подклеить. При таком подходе в течении месяца домены будут склеены, а если главным зеркалом указан новый домен — старый полностью выпадет из индекса. После этого можно провести обратную процедуру и наслаждаться чистым индексом без мусора

Заключение

В заключении хотелось бы сказать, что чистый, равномерный индекс — залог успешного сео продвижения. Правильная индексация показывает поисковым системам, что сайт как минимум качественный. И помните недоиндексация сайта это еще не страшно, а вот переиндексация… Переиндексация это очень серьезная проблема.

Привет друзья! Я уверен, что если ты решил прочитать эту статью, то у тебя наверняка есть свой сайт и ты озаботился таким вопросом: как возможно проверить индексацию страницы в поисковых системах, а в частности в Яндексе и Гугл.

Все мы пишем интересные статьи на наш блог, и хотим чтобы их читали как можно больше людей. Но для того, чтобы люди находили вашу статью во всемирной паутине необходимо, чтобы поисковые роботы занесли ее в свою огромную базу.

Процесс добавления твоей новой страницы в индексную базу поисковой системы может длится от нескольких минут до недели, в зависимости от того как часто роботы захаживают на твой сайт. И конечно хотелось бы, чтобы роботы почаще бывали на твоем блоге, и чтобы свежая информация была как можно быстрее доступна в поиске пользователям.

Так как же проверить индексацию страницы в Яндексе и Google — наиболее популярных поисковиках?

Проверить индексацию страницы - операторы

Яндекс

Для выяснения присутствует ли страница в индексной базе Яндекса существуют несколько так называемых документных операторов:

  • url: Поиск заданной страницы в индексе, формат написания: url:адрес_проверяемой_страницы
  • site: Поиск всех индексированных страниц на сайте, формат написания: site:адрес_сайта
  • host: Поиск всех страниц на данном хосте, формат написания: host:адрес_сайта

Вот как это выглядит для моего сайта:


Результат запроса в Яндексе по оператору URL:


Результат запроса в Яндексе по оператору site:

Впрочем если ты в операторе site введешь адрес отдельной страницы он сработает аналогично оператору url

Google

В данном поисковике есть всего один оператор — site. Он полностью аналогичен по функции своему одноименному собрату в Яндексе. Он также выдает все проиндексированные страницы на сайте. В формате этого оператора можно использовать команду & , которая позволяет понять сколько рабочих страниц находятся в индексной базе, отсекая при этом «сопли», которые находятся в дополнительном индексе. Вот так выглядит запрос данного оператора site:адрес_сайта/&. Пример запроса индексации страниц в Гугле на моем сайте:


Результат запроса в Гугле по оператору site:

Если же ты в операторе site для Гугла введешь полный адрес страницы он сработает также как оператор url для Яндекса.

Еще можно воспользоваться расширенными функциями поиска на сайте:

  • Яндекс — переходим сюда
  • Google — переходим сюда

В поисковой строке необходимо ввести какую-нибудь фразу или словосочетание, либо заголовок страницы, которую мы хотим проверить, и указать сайт, где будем искать. В итоге получим релевантные запросу страницы сайта, среди которых должна находиться искомая страница (если она присутствует в индексе). Вот так выглядит расширенный поиск для Яндекса:


Расширенный поиск на Яндексе

У Google ситуация похожая, отличается только интерфейс расширенного поиска. В результате выполнения запроса получаем список страниц, в которых присутствует ключевая фраза.

Сторонними программами и сервисами

Яндекс.Вебмастер

Этот способ подходит для проверки индексации страницы в Яндексе. Правда проверка таким способ занимает несколько минут, но зато он дает дополнительную информацию о дате индексирования.

Чтобы получить данные необходимо сделать следующее:

  1. Выбрать пункт Мои сайты
  2. Найти необходимы сайт, на котором расположена страница
  3. Перейти в меню Проверка URL
  4. Введите адрес искомой страницы и нажмите кнопу Проверить

В течении некоторого времени система обрабатывает данные и формирует отчет. Чтобы посмотреть ответ нажмите ссылку готово.


RDS bar

Наверное самым простым и быстрым способом проверки на индексацию является расширение для браузеров RDS bar. Данный плагин является бесплатным, встраивается практический в любой браузер и служит для определения показателей сайта. Возможности у RDS bar очень большие, перечислять в данном посте не имеет смысла, но каждый вебмастер должен иметь в своем арсенале данный инструмент.

Одна из возможностей программы — определение нахождения в индексе поисковых систем любой страницы сайта. Для установки плагина для хромбраузеров идем по этой . После установки плагина достаточно кликнуть по иконке в панели инструмента и получить полную картину:


Расширение для браузеров RDS bar

На скриншоте видно сколько возможностей у данной программы, после установки не забудь зайти в меню настройки и сделать установки под себя.

YCCY

Данная программа включает в себя несколько блоков, исполняющих разнородные задачи, но в нашем случае самое большое значение имеет модуль INDEXATOR, который выполняет следующие функции:

  • Проверка индексированных страниц в Google и Яндексе в массовом порядке
  • Проверка в пакетном режиме на количество страниц
  • Проверка на тИЦ сайта

Программу можно скачать с , там же прочитать полное описание всех модулей программы и инструкцию по работе. Все достаточно просто и наглядно. Для проверки необходимо в левое окно ввести адрес тестируемого сайта, выставить нужные чекбоксы на предмет проверки, нажать кнопку Начать проверку и в трех правых окнах получить результат проверки.


Проверка индексации программой YCCY

Я описал способы, которыми пользуюсь сам для быстрой проверки индексации страницы в поисковых системах. На самом деле похожих сервисов довольно много, есть бесплатные и платные, хорошие и не очень.

В данной статье я специально не упомянул сервисы Вебмастера от Яндекс и Google. У каждого из перечисленных поисковиков есть свой инструментарий, который дает полную картину о сайте, но чтобы ими воспользоваться ты должен быть хозяином сайта, а вышеперечисленные методы подходят абсолютно для любого сайта, будь он чужим или своим.

А какие способы используешь ты для проверки индексации своего сайта? Поделись в комментариях, я думаю это будет всем полезно знать.

Жду Ваших комментариев. Подписывайтесь на обновления блога. Буду благодарен, если Вы поделитесь этим постом в социальных сетях!

Новости блога Получай обновления первым!