Добрый день ребята!
Подскажите пожалуйста вчера на сайте обнаружил вот такую неприятность — дубли страниц с окончанием в URL адресе ?start=10. То есть любая страница сайта доступна по нескольким адресам, например вот эта страница — taxi-simferopol.ru/taxi-simferopol-sevastopol будет доступна по адресам taxi-simferopol.ru/taxi-simferopol-sevastopol?start=10 и taxi-simferopol.ru/taxi-simferopol-sevastopol?start=11 и так далее. Страница 404 настроена. Если убираешь часть URL адреса страницы переходит на 404, а если прибавляешь к URL адресу это окончание ?start=10 то она не переходит на 404, а получается вот такое безобразие taxi-simferopol.ru/taxi-simferopol-sevastopol?start=10
Что это такое и как с ним бороться?
Дубли страниц с окончанием в URL адресе ?start=10
Версия MODX: Все
Комментарии (18)
Для добавления комментариев вы должны авторизоваться или зарегистрироваться.
Павел Романов 19.01.2017 09:36 #
Симферополь 19.01.2017 10:04 #
Симферополь 19.01.2017 10:36 #
Павел Романов 19.01.2017 15:34 #
Задача же, я так понимаю, в том, чтобы поисковики не индексировали страницы с GET-запросом, если они одинаковые по контенту?
Так за это у Вас и отвечает canonical, который и говорит роботу, что страница только эта.
Если хотите, чтобы "?page=10" индексировались, то уберите в robots.txt запрет индексирования таких страниц и сделайте сниппет, который в зависимости от $_GET['page'] будет подставлять в TITLE, в H1 и в тот же canonical номер страницы:
И пишите в шаблоне:
Вот и будут они для поисковика разными (а контент там и так отличается).
Симферополь 20.01.2017 09:58 #
Павел Романов 20.01.2017 10:21 #
Вы же сами пишете, что они должны индексироваться — в чем проблема?
Уберите Disallow: /? в robots.txt и поменяйте сниппет выше:
И это:
пропишите только у тех страниц, которые содержат вызов Ditto с пагинацией.
Таким образом у страниц пагинации будут уникальные canonical с GET-параметром (и они не будут дублями для поисковиков), а у всех других — прямые URL (поскольку canonical не будет меняться).
Симферополь 20.01.2017 17:46 #
Симферополь 20.01.2017 18:44 #
Disallow: /?
Disallow: /*?
У меня потом из-за этого не заиндексируются дубли страниц?
Андрей [Aharitо́] Харитонов 19.01.2017 18:31 #
— Не делайте пагинацию.
Пусть ваши Новости идут единым потоком на одной странице, и загружаются при прокрутке экрана методом LazyLoad.
JS-скрипты и CSS, ответственные за LazyLoad, надо будет открыть для индексации Яндекса и Гугла в роботс, и тогда они (Яндекс и Гугл) нормально проиндексируют и ваши новости.
Симферополь 19.01.2017 20:22 #
Первая состоит в том, что что хочется сделать человекообразные URL адреса в пагинации.
Вторая — избавиться от дублей страниц вот с таким окончанием ?start=10.
1) У меня есть новостная страница taxi-simferopol.ru/goroda-crimea (она рассчитана на 12 новостей)
taxi-simferopol.ru/taxi-aeroport-simferopol
taxi-simferopol.ru/taxi-simferopol-sevastopol
taxi-simferopol.ru/taxi-simferopol-yalta
taxi-simferopol.ru/taxi-simferopol-alushta
taxi-simferopol.ru/taxi-simferopol-kerch
taxi-simferopol.ru/taxi-simferopol-feodosiya
taxi-simferopol.ru/taxi-simferopol-sudak
taxi-simferopol.ru/taxi-simferopol-koktebel
taxi-simferopol.ru/taxi-simferopol-evpatoriya
taxi-simferopol.ru/taxi-simferopol-gurzuf
taxi-simferopol.ru/taxi-simferopol-gaspra
taxi-simferopol.ru/taxi-simferopol-mishor
когда публикуешь 13 новость появится вторая страница пагинации вот с таким URL адресом taxi-simferopol.ru/goroda-crimea?start=12 — то есть прибавляется к моему URL адресу приставка ?start=12.
Очень бы хотелось заменить эту приставку ?start=12 например на page1 и так далее, а поскольку в robots.txt у меня прописано следующее, вторая страница пагинации не будет индексироваться (а индексация этой страницы обязательно нужна)!
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Disallow: /index.php
Host: taxi-simferopol.ru
Sitemap: taxi-simferopol.ru/sitemap.xml
2) Хотелось бы избавиться от дублей страниц. Если к любому URL адресу моих страниц добавить приставку ?start=12 (например к этому taxi-simferopol.ru/taxi-simferopol-sevastopol добавить приставку ?start=12 или ?start=10), то эта страница будет доступна по адресу taxi-simferopol.ru/taxi-simferopol-sevastopol?start=12 или taxi-simferopol.ru/taxi-simferopol-sevastopol?start=10, хотя необходимо что-бы этот URL адрес в идеале отдавал 404 ошибку!
В robots.txt этот параметр Disallow: /? для URL адресов закрыт, но тогда не будет индексироваться вторая страница пагинации taxi-simferopol.ru/goroda-crimea?start=12. А если я его открою получатся дубли страниц с окончанием ?start=12, ?start=10 и так далее.
Как решить эти проблемы, может кто сталкивался?
Андрей [Aharitо́] Харитонов 20.01.2017 12:26 #
Вы можете вручную добавить к любому УРЛу хоть ?chto_ugodno=55645, и страница все равно будет доступна.
Но ПС не добавляют таких окончаний к УРЛам сами. Они внесут такие страницы в индекс, только если на УРЛы (с прибавками) есть в явном виде ссылки на сайте (и в некоторых случаях, если есть такие ссылки с других сайтов).
Чтобы напрочь убить возможность индексации таких дублей страниц, например с УТМ-метками, но в то же время дать ПС учесть вес самой ссылки — в коде страницы пишут canonical.
Это что касается вашего беспокойства насчет тех страниц, что не участвуют в пагинации.
Андрей [Aharitо́] Харитонов 20.01.2017 12:29 #
Андрей [Aharitо́] Харитонов 20.01.2017 12:31 #
а) на чем она у вас сделана (какое дополнение, сниппет)?
б) чем вас не устроил мой совет по поводу LazyLoad?
Симферополь 20.01.2017 13:05 #
2) Мне очень интересно LazyLoad, но боюсь Андрей я в этом не разберусь )))
Андрей [Aharitо́] Харитонов 20.01.2017 15:08 #
Если ленивая загрузка — сложно (хотя ничего слишком сложного там нету), то типа так можете попробовать.
Симферополь 20.01.2017 16:05 #
Андрей [Aharitо́] Харитонов 20.01.2017 19:17 #
Кстати, буду рад, если за потраченное время вы поблагодарите меня плюсами на комменты :)
Симферополь 20.01.2017 19:41 #
Disallow: /?
Disallow: /*?
У меня потом из-за этого не заиндексируются дубли страниц?