29 нояб. 2016 г.

Файл robots.txt и sitemap для сайта на блогер.



Приветствую вас, я не большой специалист в написании такого типа файлов, но для индексации блога, как я понял,  это очень полезно. Порывшись в интернете я не нашёл нормального описания и пояснения что и как надо делать, каждый рисует своё без каких либо нормальных пояснений, некоторые специалисты просто выкладывают стандартный robots.txt, который автоматически создаёт блогер по умолчанию, для чего не знаю. И так, хочу поделиться тем, что я нашёл.


Файл robots.txt это как бы инструкция для поискового робота о том, что он должен индексировать, а что нет. Ранее в блогах на блогспот не было возможности разместить этот файл. На данное время, гугл, сам создаёт стандартный роботс, а также есть возможность прописать свой файл. 

Зачем это нужно?

1.       Для более быстрого сканирования роботом сайта, чтобы он не лазил где не нужно и тем самым сэкономил себе время.
2.       Для предотвращения появлении дублей страниц в индексах роботов. Скажем так, робот видит статью на главной и эту же статью в поиске по сайту и определяет их как две одинаковые статьи или дубли, или также статью на главной и в архиве. Что плохо влияет на позиции сайта, а значит поиск и архив надо закрыть.
3.       Чтобы закрыть от поисковых роботов не несущие полезной информации страницы, но нужные для посетителей. Такие как, обратная связь или содержание.

  
Настройка robots.txt

 Данный файл, прописывается в обычном текстовом редакторе блокнот и имеет расширение ТХТ.


User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /*archive.html
Disallow: /p/blog-page_0.html
Disallow: /p/blog-page_28.html
Allow: /

Sitemap: http://yrokitv.blogspot.com/sitemap.xml


И так, разберём что я тут понаписывал


User-agent: Mediapartners-Google: – предназначено для поискового робота адсенс (реклама).
Disallow:  – разрешено индексировать. Переводится с английского как запрещать, но, если нет указаний что запрещать, значит разрешает.
User-agent: * – звёздочка означает для всех роботов.
Disallow: /search – закрыт для индексирования поиск по сайту.
Disallow: /p/search.html – не нашёл объяснение этой строки, но на многих блогах советуют прописать.
Disallow: /*archive.html – закрыт архив блога
Disallow: /p/blog-page_0.html закрыта от индексирования страница обратной связи. Строка /p/blog-page_0.html это часть ссылки, которая взята из поисковой строки браузера при переходе на страницу блога обратной связи, или как у меня называется «Напишите мне». Должна быть заменена на вашу.
Disallow: /p/blog-page_28.html – закрыта от индексирования страница «Статьи блога». Или как её ещё называют, карта сайта для пользователей. /p/blog-page_28.html также подлежит замене на вашу.
Allow: / – разрешается индексирование всего что не запрещено.
Sitemap: http://yrokitv.blogspot.com/sitemap.xml – путь к карте сайта для роботов. Карта сайта генерируется автоматически и пока, как её редактировать я не нашёл. Ссылку, выделенную красным, нужно заменить на вашу ссылку главной страницы блога.

Карта сайта для роботов, или Файл Sitemap это список URL – адресов всех страниц которые находятся на вашем ресурсе плюс метаданные каждого URL (дата изменений, частота изменений и другое). Показывает поисковым роботам, какие статьи есть для индексации, чтобы он ни одной не пропустил.

Теперь загрузим наш роботс на блог, переходим настройки настройки поиска и в самом низу находим строку «Пользовательский файл robots.txt», это тот файл, который создан вами. По умолчанию пользовательский файл отключен и блогер создаёт свой стандартный файл. Далее жмём синюю надпись «Изменить» ставим точку в кружок «Да» выделяем и копируем созданный роботс и вставляем в открывшееся окно, жмём сохранить изменения. 







Следующий шаг персонализированные теги robots


 Далее необходимо настроить персонализированные теги robots для заголовков, строка ниже. Жмём «Изменить» ставим точку «Да» и в пустые квадратики напротив директив, ставим галочки. Вот как я это сделал.





Расшифровка директив расположена ниже, я её взял здесь.

Директива
Значение
all
Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
noindex
Не отображать эту страницу, а также ссылку "Сохраненная копия" в результатах поиска.
nofollow
Не выполнять переход по ссылкам на этой странице.
none
Аналогично метатегам noindex, nofollow.
noarchive
Не отображать ссылку "Сохраненная копия" в результатах поиска.
nosnippet
Не отображать расширенное описание этой веб-страницы в результатах поиска.
noodp
Не использовать метаданные из проекта Open Directory для заголовков или фрагментов этой страницы.
notranslate
Не предлагать перевод этой страницы в результатах поиска.
noimageindex
Не индексировать изображения на этой странице.
unavailable_after: [RFC-850 date/time]
Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.


Вроде по этой теме пока всё, в следующей статье я рассказываю как добавить sitemap.xml в яндекс вебмастер и Google Search Console.
Если Вы действительно грамотный человек в этой теме и увидели ошибки, скажите об этом в комментариях, буду вам благодарен за ваш отзыв.

2 комментария:

  1. Анонимный07.11.2018, 22:32

    одни говорят надо
    Sitemap: http://...blogspot.com/sitemap.xml
    другие предлагают
    ...../feeds/posts/default?orderby=updated

    как правильно ?

    ОтветитьУдалить