- (Обновлено: ) Алина Дрига
Сегодня текстовый контент на сайте в первую очередь ценится за смысловую уникальность. Могут ли программы и сервисы проверки текстов (антиплагиаторы) «увидеть» не только техническую неуникальность, но и тексты, не оригинальные по смыслу? Мы решили провести небольшой эксперимент, и предлагаем вам ознакомиться с его результатами.
Требования к текстам на сайтах за последние несколько лет разительно изменились – текст «ни о чем», уникальный только в техническом плане, можно смело выбрасывать в корзину.
На первый план вышла именно смысловая уникальность текста. Он должен быть действительно полезным читателю, актуальным, читабельным, грамотно написанным и удобно структурированным.
Как же проверить, насколько текст оригинален, как обнаружить плагиат? Может ли помочь в этом программа или она способна вычислить только техническую неоригинальность?
Чтобы выяснить это, мы решили провести небольшое исследование нескольких популярных программ/сервисов-антиплагиаторов. Для этого взяли отрывок из статьи «Здесь должен быть заголовок. Что делать, когда не знаешь, как назвать статью?», опубликованной на нашем блоге:
И сделали 2 варианта его рерайта. Первый вариант текста изменен чуть больше (синонимы, дополнительные слова), второй – более «откровенный» рерайт (в основном, слова просто переставлены местами и иногда разбавлены другими словами):
1 вариант текста:
Перед составлением заголовка:
- Оцените, насколько качественна статья, сформулируйте несколькими предложениями ее содержание.
- Определитесь, кто ваша аудитория, учитывая уровень образования читателя, насколько он знаком с темой, продумайте, какие термины, скорее всего, будут для него понятны, а какие потребуют объяснения.
- Поразмыслите над тем, что лично вас заинтересовало в статье больше всего, и чем изложенная читателю информация могла бы быть полезной вам, вашим коллегам, друзьям и т.д.
2 вариант текста:
Перед тем как составить заголовок:
- Оцените, насколько качественна статья, сформулируйте 1-2 предложениями ее содержание.
- Определитесь, на какую аудиторию вы рассчитываете. Учитывайте уровень образования читателя, насколько он ориентируется в этой теме, продумайте, какие термины, скорее всего, будут для него понятны, а какие потребуют разъяснения.
- Поразмыслите, что лично вас заинтересовало в статье больше всего, и чем изложенная читателю информация могла бы быть полезной вам, вашим коллегам, друзьям и т.д.
Смысл этих отрывков абсолютно идентичен оригинальному и, как вы видите, даже с технической точки зрения программе должно быть несложно найти исходный вариант.
Мы «пробили» созданные тексты по нескольким популярным программам и сервисам проверки уникальности: Etxt Антиплагиат, Text.ru и Miratools.ru. Рассказывать, как пользоваться этими сервисами, какие услуги и возможности они предлагают, мы не будем – этой информации в сети много. Поэтому сразу перейдем к делу.
Оба варианта текста проходили проверку в течение трех недель, чтобы можно было отследить, насколько и меняются ли вообще результаты в разные дни.
Программа Etxt Антиплагиат
Проверка первого варианта текста при стандартных настройках показала результат в 100%, соответственно, вычислить смысловую уникальность возможности не было:
В программе есть функция «Глубокая проверка», естественно, более детальная. Результат глубокой проверки немного лучше:
Страницу, на которой исходный текст был размещен впервые (на нашем блоге), программа так и не нашла. Но обнаружить смысловую неуникальность мы все-таки можем – в результатах проверки периодически (в разые дни) появлялась ссылка на страницу группы социальной сети ВКонтакте, которая перепостила исходную статью:
Просмотрев этот текст полностью, легко заметить, что наши варианты рерайта по смыслу не оригинальны, да и техническая уникальность не на высшем уровне.
Результаты проверки 2-го варианта рерайта (более грубого) практически не отличаются от 1-го:
Обычная проверка – 100% уникальности;
Глубокая проверка – 95% (также не выявила исходный текст).
В течение 3-ех недель результаты проверки менялись в пределах 5% (причем чаще процент уникальности был выше).
Вывод:
К сожалению, несмотря на то, что изменения были незначительными, оба текста «признаны» программой Etxt как высокоуникальные. Тем не менее, программа все же может помочь выявить смысловую неуникальность – хоть первоисточник текста так и не был найден, в небольшом (!) списке совпадений есть оригинал. И если сравнить его с отрывками текста, созданными нами, можно понять, что они – результат не очень качественного рерайтинга.
Онлайн-сервис Text.ru
Уже первая проверка рерайта №1 нас порадовала: во-первых, найдено большое количество совпадений (и в данном случае они абсолютно оправданы), во-вторых, сервис обнаружил страницу-первоисточник с оригинальным текстом. Всего несколько минут – и мы понимаем, что перед нами грубый рерайт:
Хочется сделать небольшую ремарку: периодически в работе мы используем этот сервис как дополнительный и заметили, что довольно часто он просто «придирается» к текстам, воспринимая их как очень похожие. На самом деле они могут отличаться даже по тематике. Поэтому необходимо вручную оценивать совпадения, переходя по ссылкам в результатах. Обычно их не очень много, поэтому такая проверка не должна занять много времени.
Итак, мы решили, что в плане проверки смысловой уникальности Text.ru можно поставить довольно-таки жирный плюс, пока не сделали повторную проверку этого же варианта через день:
100%-ый результат сервис упорно показывал в течение часа перепроверок, но в итоге снова выдал первый – 45,74%. На протяжении трех недель картина не менялась – уникальность составляла то 45,74%, то 100%.
Что касается второго варианта (напомню – более явного рерайта), то его программа пропустила как уникальный на 100% в 1-ый, 3-ий… 20-ый день проверки, несмотря на то, что он практически дублирует исходный текст:
Вывод:
Результаты проверок с помощью оналйн-сервиса Text.ru довольно спорные. Он действительно с легкостью находит смысловую неуникальность, но, к сожалению, далеко не всегда. И, как ни странно, явный, откровенный плагиат он не замечает. Учитывая, что результаты проверки могут меняться (причем значительно), лучше перепроверять текст несколько раз в день, а если есть возможность – в течение 2-3 дней.
Miratools.ru
Есть платная и бесплатная версия этого онлайн-сервиса. В платной можно менять параметры проверки (шингл и ГАП). При разных показателях процент уникальности сильно меняется, в отличие от Etxt Антиплагиатора (именно поэтому мы не меняли настройки в Etxt, а использовали только стандартную проверку с шинглом 3) .
Сперва мы решили оценить результаты бесплатной проверки, доступной каждому (шингл — 9, ГАП — 1). Проверка и первого, и второго варианта рерайта показала 100% уникальности:
Т.е. доступная всем проверка, по сути, бесполезна, причем при поиске не только смысловой, но и технической неуникальности.
В платной версии мы делали проверки с разными шинглами (показатель ГАП везде остался стандартным – 1). Процент уникальности в разные дни не менялся или менялся, но незначительно (1-2%), поэтому в таблице указаны результаты первых проверок:
Шингл |
3 |
4 |
5 |
6 |
7 |
8 |
1 вариант рерайта |
20%, + |
66%, — |
85%, — |
100% |
100% |
100% |
2 вариант рерайта |
29%, + |
69%, + |
78 %, + |
98%, — |
100% |
100% |
Конечно (как видно в таблице), чем меньше показатель шингла, тем больше совпадений находит сервис. По каждому совпадению в результатах проверки предоставляется список сайтов:
И, соответственно, с уменьшением показателя шингла увеличивается и количество сайтов, на которых он эти совпадения видит.
Так, например, когда мы сделали проверку варианта написанного нами текста с показателем шингла 4, получили 255 сайтов с совпадениями.
- Во-первых, на то, чтобы проверить вручную каждую ссылку и оценить все тексты, уйдет огромное количество времени. При этом большинство текстов даже косвенно не касаются нашей тематики.
- Во-вторых, совпадения с найденными текстами, в том числе и с оригинальным, очень «скромные» – отрывки фраз, которые учитываются только по отдельности (см. скриншот ниже).
На скриншоте видно, что хотя первоисточник все-таки был найден, совпадение в текстах (рерайте №2 и оригинале) только одно. При таком результате сайт с исходником в окружении остальных ресурсов абсолютно не выделяется.
Вывод:
При небольшом показателе шингла сервису удается найти сайт-первоисточник. Однако помимо него Miratools.ru выдает сотни других сайтов, и тексты на многих ресурсах к исходному варианту никакого отношения не имеют. При этом сайт, на котором действительно есть оригинальный текст, в списке других обнаружить практически невозможно. Учитывая результаты проверок, вычислить смысловую неуникальность текста очень тяжело.
Итог
Наш эксперимент показал, что программы/сервисы проверки уникальности текстов больше ориентируются на техническую оригинальность, хотя результаты проверки и в этом плане часто некорректные. Да, найти первоисточник, который подвергся грубому рерайтингу, программа может, но далеко не всегда. Так, вариант текста, мало отличающийся от исходного, может пройти как уникальный на 100%, результаты проверки в разное время могут очень сильно отличаться или среди огромного количества сайтов с совпадениями нужный текст-оригинал мы просто не заметим или не сможем найти из-за нехватки времени.
Безусловно, создавать уникальный во всех смыслах контент очень сложно, но если такая возможность есть, стоит писать самостоятельно, в частности используя полезную информацию, которой не смогут «похвастаться» другие тексты. Если материалы (статьи) приходится заказывать, конечно, очень важно работать с проверенными копирайтерами. На первом этапе, пока вы не знаете, насколько добросовестно человек выполняет свою работу, лучше потратить какое-то время и постараться проверить тексты на смысловую уникальность вручную. И при этом использовать сразу несколько программ/сервисов – так шансы обнаружить плагиат значительно увеличатся.
Желаем вам как можно больше качественных текстов!
Еще по теме:
- 10 причин, по которым заказчик не примет ваш текст Если вы заказываете тексты на бирже, то вы точно знаете, что такое работа с копирайтерами. Это не всегда просто: с вами спорят, вас не понимают...
- Лексические ошибки в предложениях: полезные сервисы и маленький тест В статье рассмотрены частые лексические ошибки в текстах на сайтах и указано несколько полезных ресурсов, которые помогут от них избавиться. Однако какими бы ни были...
- Как писать SEO-тексты для людей, которые полюбит Яндекс? SEO-тексты – тексты, ориентированные, в первую очередь, на поисковые алгоритмы, а не на людей. Обычно они малоинформативны, содержат неестественные речевые обороты, избыточные повторы ключевых фраз....
- Здесь должен быть заголовок. Что делать, когда не знаешь, как назвать статью? Очень часто написание заголовка к статье становится довольно мучительным процессом. В сети много советов по созданию заголовков. В данной статье мы остановимся на тех рекомендациях,...
- Как составить ТЗ копирайтеру, чтобы статья попала в ТОП без ссылок? Вопрос о том, как готовить качественные статьи, приносящие позиции и поисковый трафик, уже давно волнует контент-проекты и коммерческие сайты с инфоразделами. Случаи, когда статьи по...
Есть вопросы?
Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.
Исследование интересное. Но почему нет никаких данных по проверке на уникальность в Advego?
Безусловно интересное исследование.
Но. Есть еще Адвего Плагиатус и Плагиата.НЕТ. Конечно это только еще одни инструменты, но все равно было бы интересно аналогичное исследование и с использованием этих инструментов.
Интересно — о существовании этих программ и сервисов я даже не знал. Хотя пользуюсь миралинкс. Дело в том что всему голова имхо Advego , раньше еще пользовал ext но потом отказался в пользу адвего.
Здравствуйте, Yanina и Artem! Спасибо за внимание к моей статье. Изначально собирались делать проверку и по Advego, но в момент, когда проводилось исследование, с ней возникли технические проблемы (сразу после установки антивирусы или самостоятельно удаляют программу, или настоятельно требуют ее удалить, обнаружив Троян). Поскольку есть вероятность, что программа может навредить компьютерам наших читателей, мы не включили ее в исследование.
Что касается Плагиата.НЕТ – конечно, есть еще много других инструментов проверки уникальности, хотелось бы сделать исследование более обширным, но, к сожалению, в одну статью все сервисы включить нельзя, возможно, в дальнейшем мы сделаем анализ и других инструментов.
Спасибо автору за материал. Хорошая обзорная статья по основным сервисам проверки уникальности текстов.
НО!, на мой субъективный взгляд, есть серьезные неточности в формулировках, из-за незнания технических особенностей и семантики, а именно:
1. Никогда (и в ближайшее время не предвидится) сервиса/программа не определит "смысловую уникальность" текста, т.к. для этого нужно идентифицировать и осмыслить содержания текста, а это пока рядовым сервисам не под силу.
2. Понятиние уникальности довольно спорно, уверен, что лично вы также мало чего создаете действительно уникального ("смысловая уникальность"), скорее всего львиная часть времени заниманиет именно рерайтинг текстового материала с др. источников (в т.ч. и сборная солянка) или переводы. Будем откровенны.
Т.е. по-настоящему, в чистом виде, уникальных текстов в Интернет — доля ничтожна мала. К примеру — научные работы, авторские тексты (художественные, доклады и.т.д.)
Итого: Не стоит вводить читателей в заблуждение, все вышеуказанные сервисы, определяют только "техническую" составляющую уникальность текстов, в т.ч. и сервиса text.ru, если вы внимательно им пользуетесь, то должны увидеть, что он проверяет по словосочетаниям/словам в контексте абзаца/предложения. В добавок — не стабильно. Спасибо.
Anton, добрый день, спасибо за комментарий!
Да, пока что подобным программам не под силу выявлять такую уникальность, но все-таки помочь они, пусть и в малой степени, могут, именно это я и хотела проверить.
Скорее всего, в ближайшее время такой инструмент проверки действительно не появится. Но создать его вполне реально, просто это глобальная работа множества людей, и пока вряд ли кто-то за нее возьмется.
Согласна, что понятие уникальности довольно спорное и, скорее, широкое. Уникальность может состоять и в том, что автор посмотрел на проблему под другим углом, внес что-то свое, провел какое-то исследование и т.д. У такого текста уже будет своя ценность, и он сможет выделиться на фоне других материалов.
Про текст-ру не знал… Решил его протестить, в итоге получилось: Текст разбавленный словами — уник 28% Текст с синонимайзом — уник теже 28% А вот сиснонимайз + разбавка словами — уник 100% 😉
Тут уже писалось, поэтому просто присоединюсь к вышесказанному. Из личного опыта давно уже сделал вывод. что самый "придиристый" к уникальности ресурс это Адвего. Вот как раз ему часто удаётся если не распознать, то хотя бы намекнуть на смысловую не уникальность текста. Впрочем смысловая неукальнасть без технической маловерятна…
Здравствуйте, чтитаю такой експеремент познавательным. Согласен с Антоном, понятие копирайтинга относительно. Есть сео-ключи под которые пишут статьи и в выдачу попадают милионы сайтов с одинаковой тематикой. Понятно же что это все качественный рерайт. Копирайтом можно считать толко первоисточник.