Приветствую вас, я не большой специалист в написании такого
типа файлов, но для индексации блога, как я понял, это очень полезно. Порывшись в интернете я не
нашёл нормального описания и пояснения что и как надо делать, каждый рисует
своё без каких либо нормальных пояснений, некоторые специалисты просто выкладывают
стандартный robots.txt, который автоматически
создаёт блогер по умолчанию, для чего не знаю. И так, хочу поделиться тем, что
я нашёл.
Файл robots.txt это как бы инструкция для поискового робота
о том, что он должен индексировать, а что нет. Ранее в блогах на блогспот не
было возможности разместить этот файл. На данное время, гугл, сам создаёт
стандартный роботс, а также есть возможность прописать свой файл.
Зачем это нужно?
1.
Для более быстрого сканирования роботом сайта,
чтобы он не лазил где не нужно и тем самым сэкономил себе время.
2.
Для предотвращения появлении дублей страниц в
индексах роботов. Скажем так, робот видит статью на главной и эту же статью в
поиске по сайту и определяет их как две одинаковые статьи или дубли, или также
статью на главной и в архиве. Что плохо влияет на позиции сайта, а значит поиск
и архив надо закрыть.
3.
Чтобы закрыть от поисковых роботов не несущие
полезной информации страницы, но нужные для посетителей. Такие как, обратная
связь или содержание.
Настройка robots.txt
Данный файл, прописывается в обычном текстовом редакторе
блокнот и имеет расширение ТХТ.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /*archive.html
Disallow: /p/blog-page_0.html
Disallow: /p/blog-page_28.html
Allow: /
Sitemap: http://yrokitv.blogspot.com/sitemap.xml
И так, разберём что я тут понаписывал
User-agent: Mediapartners-Google: – предназначено для поискового робота адсенс
(реклама).
Disallow: – разрешено индексировать. Переводится с
английского как запрещать, но, если нет указаний что запрещать, значит
разрешает.
User-agent: * – звёздочка означает для всех роботов.
Disallow: /search – закрыт для индексирования поиск по сайту.
Disallow: /p/search.html – не нашёл объяснение этой строки, но на многих блогах
советуют прописать.
Disallow: /*archive.html –
закрыт архив блога
Disallow: /p/blog-page_0.html – закрыта от
индексирования страница обратной связи. Строка /p/blog-page_0.html это часть ссылки,
которая взята из поисковой строки браузера при переходе на страницу блога
обратной связи, или как у меня называется «Напишите мне». Должна быть заменена
на вашу.
Disallow: /p/blog-page_28.html – закрыта от индексирования страница «Статьи блога». Или как
её ещё называют, карта сайта для пользователей. /p/blog-page_28.html также подлежит замене на
вашу.
Allow: / –
разрешается индексирование всего что не запрещено.
Sitemap: http://yrokitv.blogspot.com/sitemap.xml – путь к карте сайта для роботов. Карта
сайта генерируется автоматически и пока, как её редактировать я не нашёл. Ссылку,
выделенную красным, нужно заменить на вашу ссылку главной страницы блога.
Карта сайта для роботов, или Файл
Sitemap это список URL – адресов всех страниц которые находятся на вашем ресурсе плюс
метаданные каждого URL (дата изменений, частота изменений и другое). Показывает
поисковым роботам, какие статьи есть для индексации, чтобы он ни одной не
пропустил.
Теперь загрузим наш роботс на
блог, переходим настройки → настройки поиска и в самом низу находим строку «Пользовательский файл robots.txt», это тот файл, который
создан вами. По умолчанию пользовательский файл отключен и блогер создаёт свой стандартный
файл. Далее жмём синюю надпись «Изменить» ставим точку в кружок «Да» выделяем и
копируем созданный роботс и вставляем в открывшееся окно, жмём сохранить
изменения.
Следующий шаг персонализированные теги robots
Далее необходимо настроить персонализированные
теги robots для заголовков, строка ниже. Жмём «Изменить» ставим точку «Да» и в
пустые квадратики напротив директив, ставим галочки. Вот как я это сделал.
Расшифровка
директив расположена ниже, я её взял здесь.
Директива
|
Значение
|
all |
Нет ограничений на индексирование и показ контента. Эта директива
используется по умолчанию и не влияет на работу поисковых роботов, если нет
других указаний.
|
noindex |
Не отображать эту страницу, а также ссылку "Сохраненная
копия" в результатах поиска.
|
nofollow |
Не выполнять переход по ссылкам на этой странице.
|
none |
Аналогично метатегам
noindex,. |
noarchive |
Не отображать ссылку "Сохраненная копия" в результатах
поиска.
|
nosnippet |
Не отображать расширенное описание этой веб-страницы в результатах
поиска.
|
noodp |
Не использовать метаданные из проекта Open
Directory для заголовков или фрагментов этой страницы.
|
notranslate |
Не предлагать перевод этой страницы в результатах поиска.
|
noimageindex |
Не индексировать изображения на этой странице.
|
unavailable_after:
[RFC-850 date/time] |
Не отображать эту страницу в результатах поиска после указанного
времени/даты. Время/дату следует указать в формате RFC 850.
|
Вроде по этой теме пока всё, в
следующей статье я рассказываю как добавить sitemap.xml в яндекс вебмастер и Google Search Console.
Если Вы действительно грамотный человек в этой
теме и увидели ошибки, скажите об этом в комментариях, буду вам благодарен за
ваш отзыв.



одни говорят надо
ОтветитьУдалитьSitemap: http://...blogspot.com/sitemap.xml
другие предлагают
...../feeds/posts/default?orderby=updated
как правильно ?
Я думаю первое правильно.
Удалить