Ответ
Screaming Frog может находить не только дубли страниц, но и похожие (неявные дубли). Происходит это следующим образом.
Шаг 1. Переходим в настройки «Configuration» — «Content» — «Duplicates» и настраиваем процент пороговой схожести контента.
Шаг 2. Далее в настройках «Configuration» — «Content» — «Duplicates» задаем исключения и правила для анализа контента, задавая теги, классы и идентификаторы.
Шаг 3. Парсим сайт. После окончания парса настраиваем данные для анализа парса «Crawl Analysis» — «Configure».
Шаг 4. Выполняем анализ: «Crawl Analysis» — «Start».
Шаг 5. После чего во вкладке «Content», выбрав из списка «Near Duplicates» можно увидеть страницы с похожим контентом.
Итого:
- Для каждой страницы будет указан процент схожести, а также количество URL с похожим контентом.
- Во вкладке «Duplicate Details» уже можно увидеть список похожих URL для каждой из страниц.
- Выделив URL в столбце «Near Duplicates Address» можно увидеть исходный контент, в котором будет выделены отличающиеся фрагменты.
Но необходимо понимать, что таким образом мы сможем выявить лишь похожие страницы по текстовом содержимом, но не по смыслу. Более подробно о смысловых дублях можно узнать из нашей статьи: Как выявить смысловые дубли и избавиться от них.
Еще по теме:
- Как новому сайту справиться с малоценными и маловостребованными страницами? Как для нового проекта (несколько недель) заставить Яндекс отправить страницы со статусом "Малоценная или маловостребованная страница" в поиск? Контент на 100% уникальный у каждой страницы,...
- Что делать со страницами, на которых всего несколько предложений контента? Что делать со страницами, на которых всего несколько предложений контента? Таких страниц получается много и боюсь, чтобы они не повлияли на общую оценку сайта. Ответ...
- Почему карточки товара могут быть малоценными страницами В Яндексе периодически страницы карточек товаров выбывают из индекса и помечаются как малоценные. Но через некоторое время, они могут быть опять проиндексированы, но мы с...
- Какой процент мусорных страниц в индексе ПС считается критичным и как с ними бороться? Сколько процентов мусорных страниц в индексе поисковых систем считается критичным и надо с ними бороться? Например, закрывать от индексации или делать их 404 ошибкой. Ответ...
- Как правильно удалять бесполезные страницы из индекса? У меня на сайте собралось несколько тысяч бесполезных страниц, планирую их почистить, удалить из индекса поисковиков. Страницы эти не дубли, просто автосгенерированный хлам, без полезного...
Есть вопросы?
Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.
Отзывы клиентов:
"Работы на 100%. Очень рекомендую"
Емельянов Данил Юрьевич
Tortoliano.ru"Сайт выведен из-под фильтра"
Коробов С.А.
Pechimax.ru"С первого контакта до положительного ответа Яндекса прошло 2 недели"
Александр Кисленко
Ovkuse.ru