Ответ
Screaming Frog может находить не только дубли страниц, но и похожие (неявные дубли). Происходит это следующим образом.
Шаг 1. Переходим в настройки «Configuration» — «Content» — «Duplicates» и настраиваем процент пороговой схожести контента.
Шаг 2. Далее в настройках «Configuration» — «Content» — «Duplicates» задаем исключения и правила для анализа контента, задавая теги, классы и идентификаторы.
Шаг 3. Парсим сайт. После окончания парса настраиваем данные для анализа парса «Crawl Analysis» — «Configure».
Шаг 4. Выполняем анализ: «Crawl Analysis» — «Start».
Шаг 5. После чего во вкладке «Content», выбрав из списка «Near Duplicates» можно увидеть страницы с похожим контентом.
Итого:
- Для каждой страницы будет указан процент схожести, а также количество URL с похожим контентом.
- Во вкладке «Duplicate Details» уже можно увидеть список похожих URL для каждой из страниц.
- Выделив URL в столбце «Near Duplicates Address» можно увидеть исходный контент, в котором будет выделены отличающиеся фрагменты.
Но необходимо понимать, что таким образом мы сможем выявить лишь похожие страницы по текстовом содержимом, но не по смыслу. Более подробно о смысловых дублях можно узнать из нашей статьи: Как выявить смысловые дубли и избавиться от них.
Еще по теме:
- Какой процент мусорных страниц в индексе ПС считается критичным и как с ними бороться? Сколько процентов мусорных страниц в индексе поисковых систем считается критичным и надо с ними бороться? Например, закрывать от индексации или делать их 404 ошибкой. Ответ...
- Вредят ли сайту старые малополезные и фейковые страницы? Наблюдаем такую картину – в индексе Google встречаются страницы, например, 2009 года которые: а) малополезны б) фейк Такие страницы вредят сайту? Ответ Да, большое количество...
- Пустые категории сайта: влияние на ранжирование, закрытие от индексации, удаление На сайте есть пустые категории (довольно много) без карточек товаров. Как лучше поступить? Закрыть их от индексации, или оставить до момента заполнения? Если их закрыть...
- Как бороться с малоценными страницами старых новостей на новостном сайте? Подскажите, что делать на новостных сайтах со старыми новостями, например за 2019 год, которые не в индексе и висят в GSC в статусе "Страница просканирована,...
- Нужно ли закрывать от индексации малоценные страницы карточек товаров? Есть сайт, огромное количество страниц и карточек товаров отличаются друг от друга минимально (одни товары разных размеров). Естественно тысячи таких страниц отмечены Яндексом как некачественные....
Есть вопросы?
Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.
Отзывы клиентов:
"Наконец сайт тронулся с места"
Илья Приходько
Patent-rus.ru"Рекомендации индивидуальны, с примерами наших страниц и разделов"
София Хаушильдт
Babyplan.ru"Через 1,5 месяца позиции вернулись в ТОП 10"
Евтеев Антон Павлович
Ac-u.ru