Как запретить в robots txt индексирование. Рекомендации по настройке файла robots txt. Инструменты точечного удаления страниц из индекса Яндекса и Google

27.02.2019

Одним из важных шагов для продвижения бизнеса в интернете (как в локальном поиске на Яндекс и Google Картах, так и в органическом поиске) является размещение информации в Google Мой бизнес и Яндекс.Справочнике . Эти инструменты бесплатные и крайне рекомендуются к использованию.

Зарегистрировавшись в этих сервисах, вы получите доступ к функциям, которые можно применять в интересах своей компании. Благодаря им вы сможете улучшить визитную карточку фирмы и привлечь потенциальных клиентов, а также увеличить рейтинг в результатах локального поиска.

Многие организации, зарегистрировавшись в сервисах, практически сразу забывают об этом. Однако активная работа со справочниками помогает следить за актуальностью данных, вносить правки в основную информацию, собирать отзывы клиентов и отвечать на них. Сервисы Google и Яндекса позволяют загружать красивые фото (что крайне важно для клиентов), следить за статистикой (отслеживать, сколько человек заинтересовались вашей компанией) и даже добавлять прайс-листы.

Сведения для добавления компании

Существует несколько параметров, которые являются обязательными при создании новой организации.

Базовые поля для заполнения в Яндекс.Справочнике:

название,
адрес,
телефон,
ссылка на сайт и социальные сети,
время работы фирмы,
вид деятельности.

Базовые поля для заполнения в Google Мой бизнес:

название,
страна/регион,
город,
область,
почтовый индекс,
информация о доставке,
территория обслуживания,
категория,
номер телефона,
сайт.

Польза регистрации в сервисах Google и Яндекса

Добавьте свою организацию, и вы сможете отслеживать интерес людей к ней, оперативно отвечать на вопросы и предлагать пользователям актуальную информацию и красивые фотографии.

О вас узнают новые клиенты – пользователи Поиска и Карт Google и Яндекса.
Вы сможете публиковать фотографии и записи от лица компании.
Вы получите доступ к статистике (запросы, по которым пользователи находят организацию; количество людей, перешедших на сайт; количество запросов маршрута и т.п).
Вы сможете отвечать на отзывы своих клиентов от лица компании.

Внося данные об организации в справочники, вы помогаете потенциальным клиентам подробно узнать о вашей деятельности. А если вы не заполните профиль, то это сможет сделать кто-то другой – в справочниках есть функция исправлений (их сможет сделать любой пользователь, включая конкурентов).

Однако при внесении изменений Google и Яндекс отправляют электронные письма владельцу и другим управляющим учетной записью и делают оповещение в личном кабинете.

Выглядят такие оповещения в личном кабинете следующим образом:

Google Мой Бизнес

Яндекс.Справочник

Основные «фишки» справочников

После того как вы добавите свою организацию в сервис, у вас появится возможность заполнить подробную карточку компании. Например, в Google Мой Бизнес вы можете создать уникальное (не более 750 символов) описание:

Подобные тексты в чем-то похожи на «мини-объявления» или посты в социальных сетях, они отображаются в результатах поиска и в вашем профиле (в самой «карточке» компании и на картах).

В Яндекс.Справочнике пока нет такой возможности, и карточка организации в поисковой выдаче выглядит следующим образом:

Учтите, что сервисы проверяют достоверность информации. Например, в Яндексе можно получить знак «Информация подтверждена владельцем», который дают за верифицированность компании и регулярное обновление данных.

Инструменты позволяют пользователям оставлять отзывы и отвечать на вопросы о вашей компании («Знаете это место? Поделитесь своими знаниями»):

После нажатия Google предлагает ответить на ряд вопросов, связанных с этим местом, а Яндекс – оценить организацию по 5-балльной системе, оставить отзыв и добавить фото:

Владельцев бизнеса зачастую беспокоит тот факт, что об их организации могут писать плохие и недостоверные отзывы. Но представители поисковых систем заявляют, что все под контролем . Например, в обеих системах есть кнопка «пожаловаться на отзыв». Дополнительно Google ввели важное ограничение, запрещающее нынешним и бывшим сотрудникам писать отзывы о компании.

Если вы будете отвечать на все публикуемые отзывы, неважно, хорошие или плохие, то сможете повысить рейтинг своей фирмы у потенциальных клиентов. Подобный диалог – простой и удобный способ напрямую связаться с людьми, которым интересны ваши услуги.

Загрузка фото и видео

Хорошим плюсом справочников является возможность добавления фотографий и видео организации. Такой визуальный контент привлекает внимание клиентов, и совсем не обязательно, чтобы он был снят на профессиональную камеру.

Добавление фото и видео – это отличный способ побольше рассказать о своей фирме, показать месторасположение, интерьер офиса и т.д. Важная особенность – пользователи тоже смогут загружать собственные фото после посещения вашей компании.

В Google фотографии делятся на типы («от владельца», «от клиентов», «в формате 360», «интерьер», «фасад», «рядом с работой», можно даже загрузить фотографии вашего коллектива):

Помимо фотографий, Google Мой бизнес теперь предоставляет возможность добавления видео (как пользователю, так и владельцу). Эта функция существует не так давно, но уже успела стать достаточно востребованной. Она позволяет добавлять 30-секундные видеофайлы, которые помогают привлечь внимание потенциальных клиентов.

Чтобы начать работу, войдите в панель инструментов и выберите одну из вкладок:

Чтобы загрузить файл, вы также можете нажать на значок «+»:

Обратите внимание, что размер загружаемого видео должен быть не более 100 Мб, разрешение – от 720px и выше.

В «Яндекс.Справочнике» фотогалерея организации добавляется через раздел «Фото»:

Функция «Вопрос – ответ»

Полезным для фирмы может стать возможность задать вопрос, этот инструмент появился в Google . Нововведение позволяет вам публиковать в профиле организации FAQ об услугах, а также отвечать на вопросы, заданные клиентами.

Как и в случае с описанием вашей компании, любой другой авторизированный пользователь может предложить собственные правки и ответить на имеющиеся вопросы. Поэтому вам стоит следить за уведомлениями, чтобы гарантировать точность ответов.

В своей учетной записи в Google Мой бизнес и Яндекс.Справочнике вы сможете увидеть уведомления о новых вопросах и ответить пользователям:

В Яндексе появилась очень удобная фишка (работает в том случае, если к сайту привязаны Яндекс.Диалоги), позволяющая пользователю начать чат с организацией:

Статистические данные

Для большинства владельцев бизнеса одним из очевидных преимуществ справочников является возможность просмотра статистики.

В Яндекс.Справочнике вы сможете просмотреть, сколько раз ваша организация была показана на картах и сколько посетителей интересовались ею. Также можно увидеть так называемую «тепловую карту» – на ней отображается статистика по запросам и количество конкурентов:

Яндекс составляет демографические и технологические данные вашей аудитории, а также анализирует количество показов и кликов по определенным запросам.

Подобные статистические данные можно найти и в личном кабинете Google Мой бизнес. В них отображается количество просмотров компании и число кликов (посещений и запросов на составление маршрутов).

Недавно Google запустил статистику по звонкам. Теперь можно просмотреть, когда и сколько раз вам звонили по телефону со страницы филиала.

Услуги / Меню

Если вы продаете какие-либо услуги (парикмахерская, спа-салон, косметология), то справочники помогут вам добавить свои услуги в профиль организации. Вы сможете перечислить основные сервисы, чтобы клиенты могли их легко увидеть и сравнить с конкурентами.

Для добавления услуг в «Google Мой бизнес» найдите раздел информации в панели компании:

В Яндексе для этого также есть отдельная вкладка:

Кроме этого, есть функция загрузки прайс-листов (.doc, .xls, .pdf и популярные форматы изображений):

У Google Мой бизнес и Яндекс.Справочника есть большие возможности для взаимодействия с вашими клиентами. Поэтому не пренебрегайте использованием данных сервисов для продвижения сайта в локальном поиске.

Файл robots.txt играет важную роль при индексации сайта поисковыми роботами. Главная его задача закрыть от индексации дубликаты оригиналов страниц, черновики и другие документы.

Как создать файл robots.txt мы рассмотрели . Что такое правильный robots.txt? Как составить правильный robots txt? Особенно это актуально при формировании файла robots.txt для WordPress. Движок WordPress создаёт очень много дублей и мусора. Что следует закрыть от индексации файлом robots.txt?

Чтобы ответить на этот вопрос обратимся к сервису . Работа с этим сервисом описана .

Посмотрим результаты работы робота Яндекс с изменённым файлом robots.txt на сегодня. Заходим в панель вебмастера яндекс, далее Мои сайты => сайт
На 25.12.2013г. роботом загружено 518 страниц. Исключено роботом 448 против 236 от 18.12.2013 г.. Т.е. число страниц, запрещённых к индексированию, увеличилось. Этого мы и добивались. Страниц в поиске -77. Но на сайте я разместил только 58 записей. Из них опубликовано — 57 и прилепленная – 1 (на главной странице блога: «Возраст не помеха!»). Чтобы убедиться в этом, надо зайти в Панель администратора блога и выбрать ЗАПИСИ => ВСЕ ЗАПИСИ:
А что это ещё за 19 страниц в поиске (77-17-1=19)? Кликнем в панели Вебмастера Яндекс на СТРАНИЦ В ПОИСКЕ. Кроме 58 записей (страниц) автора это:

Страницы меню моего блога: Главная страница сайта: http://сайт/ Продолжение главной страницы сайта (страница 2) http://сайт/page/2/ Продолжение главной страницы сайта (страница 3) http://сайт/page/3/ Продолжение главной страницы сайта (страница 4) http://infbiznull..ru/karta-sajta/ Продолжение карты сайта (страница 2) http://сайт/karta-sajta/?pg=2 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит!?pg=3 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит!.ru/kontakty/ И ещё:

Возраст не помеха. http://сайт/485/ Запись прилеплена на главную страницу (точнее, на главной странице только её анонс!)

Я не профи области SEO оптимизации. Ключевые слова и тэги для меня пока это синонимы. Ключевых слов в контенте я использую много. Это для понимания сущности излагаемого материала (см. главную страницу) и облегчения поиска нужной информации на блоге. Я понимаю, что для продвижения в ТОП поисковых систем тэгов должно быть меньше чем ключевых слов. Но пока так. Совершенству нет предела.

Запрет на индексирование роботом поисковой системы страниц в категориях и тегах не влияет на поиск информации на блоге по ключевым словам, категориям и тэгам. Проверим. Зайдём на блог , кликнем по ключевому слову под анонсом статьи или выбрав рубрику (страницу) или ведя запрос в строку поиска получим подборку статей. Например, по ключевому слову htacces будет выдано две статьи блога:
Можно подвести промежуточные итоги. Корректировка Файла robots.txt позволила роботу поисковой системы Яндекса обойти продублированные страницы оригинала, сократить время аудита сайта. Будем наблюдать за работой робота Яндекса, проведём в дальнейшем анализ с помощью ресурса и, при необходимости, внесём изменения и дополнения в файл robots.txt . Эту работу следует проводить регулярно, как минимум раз в месяц или после 2-х, 3-х посещений робота.

Дорогой мой новичок ! Теперь Вам не страшно вносить изменения в файл robots.txt . Теперь знаете как закрыть от индексации дубли страниц Вашего блога. Но помните, если на блоге скопился мусор (черновики Ваших записей, дубли и др.) его надо удалять. Для этого нужно тоже регулярно чистить базы данных блога. Об этом мы ещё поговорим.

Присамостоятельном продвижении и раскрутке сайтаважно не только создание уникального контента или подборзапросов в статистике Яндекса (чтобы составитьсемантическое ядро), но и так же следует уделять должное внимание такому показателю, какиндексация сайта вЯндексеиГугле . Именно эти две поисковые системы доминируют в рунете и то, насколько полной и быстрой будет индексация вашего сайта в Яндексе и Гугле зависит весь дальнейший успех продвижения.

У нас с вами имеются в распоряжении два основных инструмента, с помощью которых мы можем управлять индексацией сайта в Гугле и Яндексе. Во-первых, это, конечно же, файлrobots.txt , который позволит нам настроить запрет индексации всего того на сайте, что не содержит основного контента (файлы движка и дубли контента) и именно о robots.txt и пойдет речь в этой статье, но кроме robots.txt существует еще один важный инструмент для управления индексацией —карта сайта (Sitemap xml), о которой я уже довольно подробно писал в приведенной по ссылке статье.

Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле

Robots.txt и Sitemap xml (файлы позволяющие управлять индексацией сайта) очень важны для успешного развития вашего проект и это вовсе не голословное утверждение. В статье по Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров и там на втором и третьем месте (после не уникального контента) находятся как разrobots.txt и Sitemap xml , а точнее либо отсутствие этих файлов, либо их неправильное составление и использование.

Надо очень четко понимать, что не все содержимое сайта (файлы и директории), созданного на каком-либо движке (CMS Joomla,SMFилиВордпресс), должно быть доступно для индексации Яндексом и Гугле (другие поисковые системы я не рассматриваю, в силу их малой доли в поиске рунета).

Если не прописать определенные правила поведения в robots.txt дляботов поисковых систем, то при индексации в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, а также может произойти многократное дублирование контента информации (по разным ссылкам будет доступен один и тот же материал сайта), что поисковики не любят. Хорошим решением будет запрет индексации в robots.txt.

Для того, чтобы задать правила поведения для поисковых ботов используется файл robots.txt . С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Robot.txt представляет из себя обычный текстовый файл, который вы сможете создать, и в дальнейшем редактировать, в любом текстовом редакторе (например,Notepad++). Поисковый робот будет искать этот файл в корневом каталогевашего сайта и если не найдет, то будет индексировать все до чего сможет дотянуться.

Поэтому после написания требуемого файла robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв) его нужно сохранить в корневую папку сайта, например, с помощьюFtp клиента Filezilla, так чтобы он был доступен по такому адресу: http://vash_site.ru/robots.txt.

Кстати, если вы хотите узнать как выглядит файл robots.txt того или иного сайта, то достаточно будет дописать к адресу главной страницы этого сайта /robots.txt . Это может быть полезно для определения наилучшего варианта для вашего файла robots.txt, но при этом надо учитывать, что для разных сайтовых движков оптимальный файл robots.txt будет выглядеть по разному (запрет индексации в robots.txt нужно будет делать для разных папок и файлов движка). Поэтому если вы хотите определиться с лучшим вариантом файла robots.txt>, допустим для форума на SMF, то и изучать файлы robots.txt нужно для форумов, построенных на этом движке.

Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Файл robots.txt имеет совсем не сложный синтаксис, который очень подробно описан, например, в Я ндексе. Обычно, в файле robots.txt указывается для какого поискового робота предназначены описанные ниже директивы (директива"User-agent" ), сами разрешающие ("Allow ") и запрещающие директивы ("Disallow "), а также еще активно используется директива "Sitemap " для указания поисковикам, где именно находится файл карты сайта.

Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главнымв директиве "Host ". Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него. Т.к. это тоже является своего рода зеркалированием. Об этом я подробно рассказывал в этой статье:Домены с www и без www — история появления, использование 301 редиректа для их склеивания.

Теперь поговорим немного оправилах написания файла robots.txt . Директивы в файле robots.txt имеют следующий вид:

Правильный файл robots.txt должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл robots.txt предполагает разрешение на индексирование всего сайта.

Директива «User-agent» должна содержать название поискового робота. При помощи этой директивы в robots.txt можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания директивы «User-agent», адресованной всем поисковым роботам зашедшим на ваш ресурс, выглядит так:

Приведу несколько простых примеровуправления индексацией сайта в Яндексе , Гугле и других поисковиках с помощью директив файла robots.txt с объяснением его действий.

3 . Такой файл robots.txt будет запрещать всем поисковикам проводить индексацию содержимого каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)

5 . При описании путей для директив Allow-Disallow можно использоватьсимволы "*" и "$" , задавая, таким образом, определенные логические выражения. Символ "*" означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:

Disallow: *.aspx

Во избежания возникновения неприятных проблем с зеркалами сайта (Домены с www и без www — история появления, использование 301 редиректа для их склеивания) , рекомендуется добавлять в файлrobots.txt директиву Host , которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):

User-agent: Yandex

Host: www.site.ru

Robots и Robots.txt — запрет индексации поисковыми системами дубликатов на сайте

Существует еще один способнастроить индексацию отдельных страниц сайта для Яндекса и Гугле. Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег Robots и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации (запрет или разрешение). Пример применения мета-тега:

...

В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .

Существуют только две парыдиректив мета тега Robots : index и follow:

Index — указывают, может ли робот проводить индексацию данной страницы
Follow — может ли он следовать по ссылкам со страницы

Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow .

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагинаAll in One SEO Pack . Ну все, с теорией покончено и пора переходить к практике, а именно, к составлению оптимальных файлов robots.txt для Joomla, SMF и WordPress.

Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора вrobots.txt , то время, отведенное поисковыми системами Яндекс и Гугл на индексацию вашего сайта, будет тратиться на перебор поисковыми роботами файлов движка на предмет поиска в них информационной составляющей, т.е. контента, который, кстати, в большинстве CMS хранится в базе данных, к которой поисковым роботам никак не добраться (вы можете работать с базами черезPhpMyAdmin). В этом случае, времени на полноценнуюиндексацию сайта у роботов Яндекса и Гугла может не остаться.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта при индексировании. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL). Поисковые системы Яндекс и Гугл, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве.

Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе ис помощью запрета индексации в robots.txt .

Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс Яндекса и Гугле если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots создать запрет на индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностямиплагина All in One SEO Pack.

Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку (запрет) индексации сайта в Яндексе и Гугле через robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с индексацией и дублированием контента обычных страниц и их копий, предназначенных для печати.

Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях сайта, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов индексации вы можете посмотреть в первой статье этой статьи.

Для запрета индексации в Яндексе и Гугле одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots чуть выше по тексту. Для запрета индексации внутри страницы можно использовать тег NOINDEX , но он, правда, поддерживается только поисковой системой Яндекс.

Директива Host в robots.txt для Яндекса

Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректнойиндексации сайта в Яндексе нужна директива Host в robots.txt . Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь:Директива Host, позволяющая задать главное зеркало сайта для Яндекса.

Для указания директивы Host советуют использовать отдельный блог User-agent в файле robots.txt, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации вашего сайта.

Как обстоит дело на самом деле — сказать трудно, ибоалгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: * . Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow: , то таким образом выв robots.txt разрешите Яндексу индексацию всего сайта .

Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в Яндекс ВебмастериГугл Вебмастер.

Правильный robots.txt для форума SMF

Allow: /forum/*sitemap

Allow: /forum/*arcade

Allow: /forum/*rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smileys/

Disallow: /forum/Sources/

Disallow: /forum/Themes/

Disallow: /forum/Games/

Disallow: /forum/*.msg

Disallow: /forum/*. new

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*action

User-agent: Slurp

Crawl-delay: 100

Обратите внимание, что этот robots.txt приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum . Авторы данного варианта файла robots.txt для форума на движке SMF говорят, что он даст максимальный эффект для правильной индексации в Яндексе и Гугле, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).

Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт «Характеристики и настройки», в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.

Еще одинправильный файл robots.txt для форума SMF (но, наверное, еще не окончательно оттестированный):

Allow: /forum/*sitemap

Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки

Allow: /forum/*rss

Allow: /forum/*type=rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smileys/

Disallow: /forum/Sources/

Disallow: /forum/Themes/

Disallow: /forum/Games/

Disallow: /forum/*.msg

Disallow: /forum/*. new

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*action

Disallow: /forum/*prev_next

Disallow: /forum/*all

Disallow: /forum/*go.php # либо тот редирект что стоит у вас

Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp

Crawl-delay: 100

Как вы можете видеть в этом robots.txt, директива Host , предназначенная только для Яндекса, включена в директиву User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent в robots.txt только для Яндекса, с повтором всех правил. Но решайте сами.

User-agent: Slurp

Crawl-delay: 100

связано с тем, что поисковая система Yahoo (Slurp — это имя его поискового бота) производит индексацию сайта в много потоков, что может негативно сказаться на его производительности. В этом правиле robots.txt, директива Crawl-delay, позволяет задать поисковому роботу Yahoo минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. Это позволит снять нагрузку на серверпри индексации сайта поисковой системой Yahoo .

Для запрета индексации в Яндексе и Гугле версий для печати страниц форума SMF рекомендуют проделать, описанные ниже операции (для их осуществления понадобится открыть некоторые файлы SMF на редактирование с помощью программы FileZilla). В файле Sources/Printpage.php находите (например, с помощью встроенного поиска вNotepad++) строку:

В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:

Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже прошла индексацию в Яндексе и Гугле), то в том же файле Printpage.template.php вы находите строку с открывающим тегом HEAD:

Получить больше информации по этому варианту файлаrobots.txt для форума SMF вы можете, почитавэту ветку русскоязычного форума поддержки SMF.

Правильный robots.txt для сайта на Joomla

В прошлой статье мы рассмотрели вопросы ускорения индексации сайта. Говорили о том, что это важная часть всех работ по продвижению.

Тем не менее, есть ситуации, когда нужно закрыть от индексации либо весь сайт, либо какую-то часть: разделы, страницы, ссылки и т.д.

Сегодня мы рассмотрим вопрос, как запретить индексацию сайта в поисковых системах . В каких случаях это требуется? Обычно запрет индексации ставится на различные служебные модули сайта. Которые не несут смысловой нагрузки, как для пользователей, так и для ПС.

Это администраторский раздел, формы регистрации и ввода информации, профили юзеров и т.д. Так же это может быть и секретный раздел на форуме, содержание которого мы не хотим показывать всем. Кроме того, надо закрыть дубли страниц от индексации, которые могут создавать различные движки сайтов.

Запрещать индексировать можно как всю страницу целиком, так и отдельную ее часть, например кусок текста или ссылку. Поэтому можно говорить как о глобальном запрете индексирования, так и о локальном. Теперь поговорим предметно, как это реализовать.

Запрет индексации сайта в robots.txt

При помощи файла robots.txt мы можем запретить индексацию отдельной страницы или целого раздела сайта.

Я уже писал подробную статью с множеством примеров про robots.txt . Там вы можете прочитать, что это за файл, как его создавать и настраивать. В контексте данной статьи я напомню, как запретить индексацию в robots.txt

User-agent: *
Disallow: /kolobok.html
Disallow: /foto/

Где, * — определяет, что инструкции предназначены для всех ПС;
Disallow: /kolobok.html — запрещает индексировать файл kolobok.html;
Disallow: /foto/ — дает запрет на индексацию всего содержимого папки foto.

Если вам надо запретить несколько папок и/или страниц, все их указываем в роботсе.

Запрет индексации страницы в мета-теге robots

Для запрета индексации отдельной страницы можно воспользоваться мета-тегом robots. Особенность его использования в отличие от robots.txt в том, что он дает указания сразу всем ПС. А в robots.txt можно настроить под отдельную поисковую систему. Этот мета тег подчиняется общим правилам формата html и должен находится в заголовке страницы между тегами

.
Пример записи для запрета:

Атрибут content может содержать такие условия:

index — разрешает индексацию этой страницы;
noindex – запрещает индексацию страницы;
follow – разрешает индексировать ссылки на этой странице;
nofollow – запрещает индексацию ссылок на странице;
all – включает в себя сразу index и follow (разрешает индексировать и страницу и ссылки);
none – включает noindex и nofollow, т.е. запрещает индексацию

пример записи, которая разрешает все:

Или запрещает все и индексацию текста и ссылок:

Так же, можно указать для какой ПС предназначены ограничения в мета теге robots. Яндекс точно понимает такую запись:

Запрет индексации ссылки: атрибут rel=»nofollow» тега

Атрибут rel=»nofollow» учитывают все нужные нам поисковики: Яндекс и Google. В отличие от мета-тега «robots», который, запрещает индексировать сразу все ссылки, «rel» закрывать только одну ссылку.

Часто этот атрибут применяют, когда не желают терять по ссылкам ссылочный вес страницы.

Запрет индексации тегом

При помощи тега можно закрыть от индексации определенную часть страницы. Это может быть кусок текста или кода, что угодно. Часто вебмастера закрывают этим тегом счетчики статистики и скрипты на сайтах. Пример записи:

часть страницы, которую надо закрыть от индексации

Тег «noindex» может располагаться в любой части страницы и не чувствителен к вложенности. Что бы сделать его валидным, применяйте такую запись:

текст, индексирование которого нужно запретить

Запрет индексации в htaccess

Файл htaccess может заблокировать доступ к определенной части сайта, например к отдельной странице. Если вы хотите закрыть страницу от Яндекса то вам нужна такая запись.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} yandex
RewriteRule ^тут_урл_страницы$ — [F]

Вот мы и разобрали все возможные способы и методы запрета индексации как целых разделов или страниц сайта, так и каких-то определенных частей. Кстати, посмотреть какие страницы вашего сайта закрыты от индексации можно в панеле вебмастера, как в Яндексе, так и в Google. Для этого нужно сайт добавить свой сайт в аккаунт, и при анализе страниц будет видно, какие из них закрыты.

Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц).

Robots.txt — директива user-agent и боты поисковых систем

Роботс.тхт имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса и хелпе Гугла . Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота ("User-agent "), разрешающие ("Allow ") и запрещающие ("Disallow "), а также еще активно используется "Sitemap" для указания поисковикам, где именно находится файл карты.

Стандарт создавался довольно давно и что-то было добавлено уже позже. Есть директивы и правила оформления, которые будут понятны только роботами определенных поисковых систем. В рунете интерес представляют в основном только Яндекс и Гугл, а значит именно с их хелпами по составлению robots.txt следует ознакомиться особо детально (ссылки я привел в предыдущем абзаце).

Например, раньше для поисковой системы Яндекс было полезным указать, вашего вебпроекта является главным в специальной директиве "Host", которую понимает только этот поисковик (ну, еще и Майл.ру, ибо у них поиск от Яндекса). Правда, в начале 2018 Яндекс все же отменил Host и теперь ее функции как и у других поисковиков выполняет 301-редирект.

Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным - .

Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

User-agent

Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

User-agent: *

Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

User-agent: Yandex

Название роботов поисковых систем и их роль в файле robots.txt

Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

Google http://www.google.com Googlebot Яндекс http://www.ya.ru Yandex Бинг http://www.bing.com/ bingbot

У крупных поисковых систем иногда, кроме основных ботов , имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть (для Яндекса) и (для Google).

Как быть в этом случае? Если нужно написать правило запрета индексации, которое должны выполнить все типы роботов Гугла, то используйте название Googlebot и все остальные пауки этого поисковика тоже послушаются. Однако, можно запрет давать только, например, на индексацию картинок, указав в качестве User-agent бота Googlebot-Image. Сейчас это не очень понятно, но на примерах, я думаю, будет проще.

Примеры использования директив Disallow и Allow в роботс.тхт

Приведу несколько простых примеров использования директив с объяснением его действий.

Приведенный ниже код разрешает всем ботам (на это указывает звездочка в User-agent) проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow . User-agent: * Disallow:
Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения. User-agent: * Disallow: /
В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу) User-agent: * Disallow: /image/
Чтобы заблокировать один файл, достаточно будет прописать его абсолютный путь до него (читайте ): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Забегая чуть вперед скажу, что проще использовать символ звездочки (*), чтобы не писать полный путь:
Disallow: /*private_file.html
В приведенном ниже примере будут запрещены директория «image», а также все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.): User-agent: * Disallow: /image Дело в том, что по умолчанию в конце записи подразумевается звездочка, которая заменяет любые символы, в том числе и их отсутствие. Читайте об этом ниже.
С помощью директивы Allow мы разрешаем доступ. Хорошо дополняет Disallow. Например, таким вот условием поисковому роботу Яндекса мы запрещаем выкачивать (индексировать) все, кроме вебстраниц, адрес которых начинается с /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
Ну, или такой вот очевидный пример использования связки Allow и Disallow:
User-agent: * Disallow: /catalog Allow: /catalog/auto
При описании путей для директив Allow-Disallow можно использовать символы "*" и "$" , задавая, таким образом, определенные логические выражения.
1. Символ "*"(звездочка) означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.php»: User-agent: * Disallow: *.php$
2. Зачем нужен на конце знак $ (доллара) ? Дело в том, что по логике составления файла robots.txt, в конце каждой директивы как бы дописывается умолчательная звездочка (ее нет, но она как бы есть). Например мы пишем: Disallow: /images
  Подразумевая, что это то же самое, что:
  Disallow: /images*
  Т.е. это правило запрещает индексацию всех файлов (вебстраниц, картинок и других типов файлов) адрес которых начинается с /images, а дальше следует все что угодно (см. пример выше). Так вот, символ $ просто отменяет эту умолчательную (непроставляемую) звездочку на конце. Например:
  Disallow: /images$
  Запрещает только индексацию файла /images, но не /images.html или /images/primer.html. Ну, а в первом примере мы запретили индексацию только файлов оканчивающихся на.php (имеющих такое расширение), чтобы ничего лишнего не зацепить:
  Disallow: *.php$

Во многих движках пользователи (человеко-понятные Урлы), в то время как Урлы, генерируемые системой, имеют знак вопроса "?" в адресе. Этим можно воспользоваться и написать такое правило в robots.txt: User-agent: * Disallow: /*?

Звездочка после вопросительного знака напрашивается, но она, как мы с вами выяснили чуть выше, уже подразумевается на конце. Таким образом мы запретим индексацию страниц поиска и прочих служебных страниц создаваемых движком, до которых может дотянуться поисковый робот. Лишним не будет, ибо знак вопроса чаще всего CMS используют как идентификатор сеанса, что может приводить к попаданию в индекс дублей страниц.

Директивы Sitemap и Host (для Яндекса) в Robots.txt

Во избежании возникновения неприятных проблем с зеркалами сайта, раньше рекомендовалось добавлять в robots.txt директиву Host, которая указывал боту Yandex на главное зеркало.

Директива Host — указывает главное зеркало сайта для Яндекса

Например, раньше, если вы еще не перешли на защищенный протокол , указывать в Host нужно было не полный Урл, а доменное имя (без http://, т.е..ru). Если же уже перешли на https, то указывать нужно будет полный Урл (типа https://myhost.ru).

Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы моего блога (страницы с пагинацией) Canonical указывает на https://сайт и никаких проблем с дублированием тайтлов возникнуть не должно.

Но это я отвлекся...
Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).
Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поисковиков, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов. Но если с помощью описанного выше мета-тега Robots создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Как это сделать описано по ссылке приведенной чуть выше (на плагин ОлИнСеоПак)
Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.
Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент, и момент этот связан с поисковой системой Яндекс.
Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host . Она в явной форме укажет этому поисковику главное зеркало вашего сайта.
Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.
Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: * . Если вы оставите User-agent: Yandex с пустым Disallow: , то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.
Robots для WordPress
Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином .
Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.
Мой вариант этого файла вы можете сами посмотреть. Он старый, давно не менялся, но я стараюсь следовать принципу «не чини то, что не ломалось», а вам уже решать: использовать его, сделать свой или еще у кого-то подсмотреть. У меня там еще запрет индексации страниц с пагинацией был прописан до недавнего времени (Disallow: */page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.
А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.
Приведу две крайности :
можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить): User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает # Яндекс и Mail.RU, Google не учитывает. Host: www.site.ru
А вот можно взять на вооружение пример минимализма: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site.ru/sitemap.xml

Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — . Он же поможет и Canonical настроить.
Правильный robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.
Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Host: vash_sait.ru (или www.vash_sait.ru) User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://путь к вашей карте XML формата
Да, еще обратите внимание, что во втором варианте есть директивы Allow, разрешающие индексацию стилей, скриптов и картинок . Написано это специально для Гугла, ибо его Googlebot иногда ругается, что в роботсе запрещена индексация этих файлов, например, из папки с используемой темой оформления. Даже грозится за это понижать в ранжировании.
Поэтому заранее все это дело разрешаем индексировать с помощью Allow. То же самое, кстати, и в примере файла для Вордпресс было.

Удачи вам! До скорых встреч на страницах блога сайт
посмотреть еще ролики можно перейдя на
");">
Вам может быть интересно
Домены с www и без него - история появления, использование 301 редиректа для их склеивания
Зеркала, дубли страниц и Url адреса - аудит вашего сайта или что может быть причиной краха при его SEO продвижении