ТЫ СДЕЛАЕЩЬ СВОЙ БЛОГ НА BLOGGER: Файл robots.txt и sitemap для сайта на блогер.

Приветствую вас, я не большой специалист в написании такого типа файлов, но для индексации блога, как я понял, это очень полезно. Порывшись в интернете я не нашёл нормального описания и пояснения что и как надо делать, каждый рисует своё без каких либо нормальных пояснений, некоторые специалисты просто выкладывают стандартный robots.txt, который автоматически создаёт блогер по умолчанию, для чего не знаю. И так, хочу поделиться тем, что я нашёл.

Файл robots.txt это как бы инструкция для поискового робота о том, что он должен индексировать, а что нет. Ранее в блогах на блогспот не было возможности разместить этот файл. На данное время, гугл, сам создаёт стандартный роботс, а также есть возможность прописать свой файл.

Зачем это нужно?

1. Для более быстрого сканирования роботом сайта, чтобы он не лазил где не нужно и тем самым сэкономил себе время.

2. Для предотвращения появлении дублей страниц в индексах роботов. Скажем так, робот видит статью на главной и эту же статью в поиске по сайту и определяет их как две одинаковые статьи или дубли, или также статью на главной и в архиве. Что плохо влияет на позиции сайта, а значит поиск и архив надо закрыть.

3. Чтобы закрыть от поисковых роботов не несущие полезной информации страницы, но нужные для посетителей. Такие как, обратная связь или содержание.

Настройка robots.txt

Данный файл, прописывается в обычном текстовом редакторе блокнот и имеет расширение ТХТ.

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Disallow: /p/search.html

Disallow: /*archive.html

Disallow: /p/blog-page_0.html

Disallow: /p/blog-page_28.html

Allow: /

Sitemap: http://yrokitv.blogspot.com/sitemap.xml

И так, разберём что я тут понаписывал

User-agent: Mediapartners-Google: – предназначено для поискового робота адсенс (реклама).

Disallow: – разрешено индексировать. Переводится с английского как запрещать, но, если нет указаний что запрещать, значит разрешает.

User-agent: * – звёздочка означает для всех роботов.

Disallow: /search – закрыт для индексирования поиск по сайту.

Disallow: /p/search.html – не нашёл объяснение этой строки, но на многих блогах советуют прописать.

Disallow: /*archive.html – закрыт архив блога

Disallow: /p/blog-page_0.html – закрыта от индексирования страница обратной связи. Строка /p/blog-page_0.html это часть ссылки, которая взята из поисковой строки браузера при переходе на страницу блога обратной связи, или как у меня называется «Напишите мне». Должна быть заменена на вашу.

Disallow: /p/blog-page_28.html – закрыта от индексирования страница «Статьи блога». Или как её ещё называют, карта сайта для пользователей. /p/blog-page_28.html также подлежит замене на вашу.

Allow: / – разрешается индексирование всего что не запрещено.

Sitemap: http://yrokitv.blogspot.com/sitemap.xml – путь к карте сайта для роботов. Карта сайта генерируется автоматически и пока, как её редактировать я не нашёл. Ссылку, выделенную красным, нужно заменить на вашу ссылку главной страницы блога.

Карта сайта для роботов, или Файл Sitemap это список URL – адресов всех страниц которые находятся на вашем ресурсе плюс метаданные каждого URL (дата изменений, частота изменений и другое). Показывает поисковым роботам, какие статьи есть для индексации, чтобы он ни одной не пропустил.

Теперь загрузим наш роботс на блог, переходим настройки → настройки поиска и в самом низу находим строку «Пользовательский файл robots.txt», это тот файл, который создан вами. По умолчанию пользовательский файл отключен и блогер создаёт свой стандартный файл. Далее жмём синюю надпись «Изменить» ставим точку в кружок «Да» выделяем и копируем созданный роботс и вставляем в открывшееся окно, жмём сохранить изменения.

Следующий шаг персонализированные теги robots

Далее необходимо настроить персонализированные теги robots для заголовков, строка ниже. Жмём «Изменить» ставим точку «Да» и в пустые квадратики напротив директив, ставим галочки. Вот как я это сделал.

Расшифровка директив расположена ниже, я её взял здесь.

https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=ru

Директива	Значение
`all`	Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
`noindex`	Не отображать эту страницу, а также ссылку "Сохраненная копия" в результатах поиска.
`nofollow`	Не выполнять переход по ссылкам на этой странице.
`none`	Аналогично метатегам `noindex, nofollow`.
`noarchive`	Не отображать ссылку "Сохраненная копия" в результатах поиска.
`nosnippet`	Не отображать расширенное описание этой веб-страницы в результатах поиска.
`noodp`	Не использовать метаданные из проекта Open Directory для заголовков или фрагментов этой страницы.
`notranslate`	Не предлагать перевод этой страницы в результатах поиска.
`noimageindex`	Не индексировать изображения на этой странице.
`unavailable_after: [RFC-850 date/time]`	Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.

Вроде по этой теме пока всё, в следующей статье я рассказываю как добавить sitemap.xml в яндекс вебмастер и Google Search Console .

Если Вы действительно грамотный человек в этой теме и увидели ошибки, скажите об этом в комментариях, буду вам благодарен за ваш отзыв.

ТЫ СДЕЛАЕЩЬ СВОЙ БЛОГ НА BLOGGER

Страницы

29 нояб. 2016 г.

Файл robots.txt и sitemap для сайта на блогер.

И так, разберём что я тут понаписывал

Следующий шаг персонализированные теги robots

2 комментария:

Страницы

29 нояб. 2016 г.

Файл robots.txt и sitemap для сайта на блогер.

И так, разберём что я тут понаписывал

Следующий шаг персонализированные теги robots

2 комментария:

29 нояб. 2016 г.