Защищаем сайт от плагиата. Часть 1

Великий классик Дюма говорил, что все плагиат в этом мире. Действительно, все предметы придуманы на основе какого-то образца, даже Господь создавал человека по образу своему. Безусловно, иметь перед глазами пример для будущего творения — отличное подспорье, но вот с точки зрения законодательства это может быть расценено как плагиат или присвоение авторства.

Бытует мнение, что плагиат возник с появлением и распространением интернета, но ведь, если углубиться в историю, то еще в древности именитых личностей подозревали в «нечестности». Так подобным обвинениям подвергался Софокл, Шекспир, Вергилий и т.п.  Конечно, любое художественное произведение,  так или иначе, состоит из плагиата, компиляции и уж точно, интернет здесь не при чем.

По-своему прав был Мольер, который отвечал на подобные обвинения, что берет свое добро отовсюду, где находит, но одно дело литература, книги, другое — сайты.

Для качественного продвижения требуется уникальный контент, поэтому копирование его не уместно. Многие специалисты не согласятся с этим и будут утверждать, что это предрассудок, миф, ведь можно обойтись тем, что сейчас есть. Но все же рациональное зерно в борьбе с присвоением авторства есть.

Именно с этой целью было разработано большое количество сервисов, которые  позволяют обнаружить плагиат. Конечно, можно вручную искать похожиепо тематике сайты и сверять контент, но на это уйдет много времени.

Сервисы, программы проверки уникальности текстов

Экскурс в историю

В разработке и создании программ проверки текстов на антиплагиат отечественная индустрия не намного отстала от Запада: если на западном рынке монополист Copyscape начал свою работу в 2004 году, то уже через год был запущен российский «Антиплагиат» http://www.antiplagiat.ru/.

Его ключевым отличием от предшественника было предназначение, так как «Антиплагиат» использовался исключительно для научных и учебных работ.

Следующей стала программа Double Content Finder (DCFinder). Над ее созданием работали веб-программисты Textbroker.ru (Бюро копирайтинга). Это был настоящий прорыв, ведь проверка текстов осуществлялась уже  через поисковые системы.

Как работают программы проверки текстов?

Существует несколько способов проверки текстов, но все они основываются на поиске  и анализе отдельных фрагментов и фраз.  Собственно, это первый этап программы.

После обнаружения схожих фраз, программа обрабатывает их по собственным алгоритмам, высчитывая процент уникальности, находит рерайт, определяет иные характеристики текста.

Тут нужно отметить, что каждая программа делит текст по-своему и название этих частей может быть разное: фразы, куски, шинглы и т.п. Одни программы выдергивают фразы в случайном порядке, другие выбирают их из нескольких слов,  третьи — определяют пересекающиеся фразы. Здесь существует определенная закономерность — чем больше текст, тем больше кусков для проверки.

К примеру, в тексте, состоящем из 1500 символов около 250 слов. При делении его на куски (фразы) из 5-ти слов без пересечений программа определит около 50 фраз. При пересечении, например, в два слова, количество фраз значительно увеличиться.

Для максимально точной проверки текста на уникальность потребуется исследовать все фразы, а это 50 запросов к поисковой системе. Уже на 3-ем запросе такая программа может вызвать подозрения и потребует ввести капчу более 40 раз!!!

Существуют программы, «работающие» и с xml-запросами. Их особенность в том, что они не требуют введения капчи, но при этом запросы к поисковым системам будут довольно затратными, а это расточительно для бесплатной проверки одного текста.В связи с этим можно утверждать, что программы не досконально проверяют тексты, ведь для  этого используется меньшее количество запросов, чем требуется.

Но, проверяя 10 случайно выбранных фраз, используя 10 запросов, результат будет один. Правда, при повторной проверке могут быть выбраны программой и иные фразы, от чего результат будет отличным от первоначального.  Даже один и тот же запрос для разного региона может существенно влиять на результат проверки

Какие существуют программы, сервисы проверки текстов на плагиат сегодня?

Наиболее популярные программы:

  • eTXT Антиплагиат
  • Advego Plagiatus

Сервисы

  • Copyscape
  • ext.ru

Менее популярные сервисы

Вывод один: самые продвинутые и популярные алгоритмы проверки не дают гарантии и 100 % точности.

Продолжение следует…

15.09.2016