Uploaded by Игорь Алпатов

essay

advertisement
Парадоксы оценки уникальности или что не так с Text.ru
Люди привыкли использовать сервисы для оценки уникальности текста. Это стало отраслевыми стандартом для любого, кто работает с контентом, пишет его, размещает, покупает или продаёт. Мы привыкли доверять таким сервисам, сегодня сложно представить себе ТЗ для копирайтера или автора статьи без лимита уникальности, нередко с указанием конкретного сервиса, которому доверяет создатель ТЗ. Мне тоже приходится много работать с текстами, и я также, как большинство, привык доверять сервисам проверки текстов на уникальность. Однако, недавно меня начали "терзать смутные сомнения"...
21
2377 просмотров
Пару тёплых слов о Text.ru
Много лет Text.ru удерживают позицию одного из лидеров сегмента проверки уникальности в рунете. Для тысяч людей показатели уникальности от этого сервиса последняя инстанция при проверке контента на плагиат и определения того насколько текст понравится поисковым роботам. Я много лет использовал Text.ru и, не смотря на то, что его работу нельзя назвать безупречной, он выполнял заявленные функции и в целом меня устраивал. Недавно со мной произошел случай, который навёл на размышления о точности алгоритмов и качестве проверки уникальности, причем не только у Text.ru, но и у всех прочих сервисов, проверяющих тексты на уникальность.
Случай
Представьте, что вы пишите текст насыщенный специфической терминологией. При этом SEO-специалист, который готовит требования к тексту, настаивает на 100% уникальности (не логично в 2021-м, но случается). Наконец, вы завершаете опус, и проверяете его на уникальность при помощи сервиса, который показывает вам 100%. Вы с чистой совестью фиксируете результат, применяя соответствующую функцию.
Внезапно возникает необходимость дополнить текст. И тут начинаются странности. При проверке дополненного текста его уникальность снижается. И вроде бы это логично, в том случае если алгоритм оценивает новую часть текста как неуникальную. Или при совмещении этой части с соседней возникает неуникальная последовательность символов. Но как быть если помимо нового фрагмента, система выделяет часть текста, которая структурно удалена от добавленного текста, а выделенные участки ранее были определены как уникальные?
В моём случае всё ещё интереснее, так как если вырезать якобы неуникальный фрагмент из текста и проверить его отдельно, то Text.ru определяет его как уникальный.
Чтобы не быть голословным, предоставляю ссылки.
Исходный текст(100%): https://text.ru/antiplagiat/6131d5af03eb2
Текст с интегрированным фрагментом (77%): https://text.ru/antiplagiat/61327beeac602
Фрагмент отдельно (100%): https://text.ru/antiplagiat/61327b9af0a32
Получается интересная ситуация, в которой 2 на 100% уникальных по отдельности фрагмента, вместе становятся неуникальными на целых 23%. Вероятно в сложном алгоритме расчёта уникальности есть некая особенность, которая при анализе связывает части текста, структурно находящиеся в разных его частях. Зачем так сделано, мне не совсем понятно.
Ещё немного претензий к Text.ru
Это не единственная парадоксальная история связанная с результатами проверок на Text.ru. Если поэкспериментировать и проверить один и тот же неуникальный текст несколько раз, мы удивительным образом обнаружим несколько различных результатов. Это можно объяснить за счет динамических изменений в поисковой выдаче, с которой система сравнивает текст, "но это неточно".
Между тем, сервис вполне может просто рассказать о том почему такие изменения существуют. Всё же у меня закрадываются подозрения, что разные моменты времени алгоритм работает неодинаково и почему всё так устроено мне не совсем понятно.
Отдельного упоминания заслуживает оценка заспамленности. Для определения этого показателя алгоритм выявляет дублирующиеся слова и фразы, выделяет их и определяет эту самую заспамленность выдавая результат в процентах. По логике, чем меньше дублированных фраз(повторяющихся слов), по отношению к равному количеству символов будет в тексте, ниже должна быть заспамленность. На практике это не всегда так. Планомерно сокращая количество дублей в тексте от проверки к проверке, возникает результат, когда у вас в тексте всего два повторяющихся слова, но сервис упорно выставляет заспамленность в районе 35%.
В качестве заключения
Все эти парадоксы мне представляются достаточно странными и наводят на печальные мысли о том, что сервисы проверки контента работают не так хорошо, как мы привыкли думать. А также, что SEO-специалистам, возможно, следует меньше доверять подобным системам. Учитывая, что для этого сервиса не очень много альтернатив, прошу читателей поделиться собственным опытом использования Text.ru и других систем определения уникальности.
Мне не хотелось бы, чтобы этот пост воспринимался как попытка утопить Text.ru в пользовательском хейте. Я просто задаю вопросы, которые, думаю, появляются у всех, кто столкнулся с подобными парадоксальными результатами. Буду признателен за описания вашего опыта работы и странных результатах в системах проверки контента.
Download