Читать книгу GPT маркетологу. 337 промптов повышающих производительность в 1000 раз. Промпт-инжиниринг для написания исследований, от плана до антиплагиата, решения задач, генерации творческих идей, ускорения рутинных процессов - - Страница 3
1. АНТИПЛАГИАТ
Оглавление1.1. Что общего у КонтрПлагиат и АнтиПлагиат
Отличие в том, что сервисы стоят по разные стороны баррикад, Антиплагиат ищет плагиат, а КонтрПлагиат из плагиата делает уникальный текст. Рис. 1.
Рисунок 1 – Результат проверки текста в Антиплагиат, версия ВУЗ
С весны 2023 года Антиплагиат научился находить тексты, написанные с помощью искусственного интеллекта, щедро раздавая статусы: «Внимание, документ подозрительный: в документе присутствует сгенерированный текст», На следующий день КонтрПлагиат предложил услугу очеловечивания текстов, созданных с помощью любого искусственного интеллекта, рис. 2.
Рисунок 2 – Генеративный текст, созданный с помощью GPT, «ДО» и «ПОСЛЕ» очеловечивания КонтрПлагиат
Сумел бы КонтрПлагиат предложить услугу очеловечивания, не умея работать с нейросетями?
Общее у АнтиПлагиата и КонтрПлагиата – умение применять искусственный интеллект, который позволяет выполнять поставленные задачи быстро и с надлежащим качеством. Те, кто повышал уникальность своих студенческих работ, сидя за компьютером днями и неделями, многократно проверял тексты в Антиплагиат понимает, что возможности человека и возможности компьютерной системы, алгоритмов и скриптов, как говорят в Одессе, две большие разницы. На рис. 3 представлен процесс перефразирования текста.
Рисунок 3 – Перефразирование, рерайт, перепечатывание текста «другими словами»
На рис. 3 видно, как основательно переработан текст, в результате глубокого перефразирования КонтрПлагиат, то, что напечатано обычным черным цветом, это текст, который не изменился, синим цветом выделены слова и фразы, придуманные заново, а красным отмечен удаленный текст. Человек потратит на глубокий рерайт такого текста больше времени, чем КонтрПлагиат, перефразирующий текст такого объема за 15 сек.
А теперь главное! Текст, который вы видите на рис. 3, проверку в антиплагиат не прошел. Причина, в том, что в тексте остались словосочетания из 2—3 слов, называемые высокочастными шинглами, которые Антиплагиат нашел, а модуль поиска перефразирования и рерайта посчитал, что текст изменен недостаточно, поэтому он остается плагиатом.
1.2. Шинглы текста
Шингл – последовательность количества слов, используемая в алгоритме проверки уникальности текста. Уникальность проверяется путем сравнения нового текста с текстом, который уже был проиндексирован.
При определении уникальности происходит следующее:
Нормализация (канонизация) текста – удаление из текста элементов, не несущих смысловой нагрузки, предлогов, союзов, знаков препинания и др.
Лемматизация – приведение слов к нормальной форме.
Разбиение текста на фрагменты – шинглы, конец каждого фрагмента является началом предыдущего, рис. 4.
Рисунок 4 – Лемматизированный текст, КонтрПлагиат работает с шинглами, состоящими из 2 слов
Вычисление хэш-значения фрагмента слова – на этом этапе начинается сравнение текста. Точность сравнения напрямую зависит от количества операций – это достаточно ресурсоемкий процесс. Чтобы увеличить производительность метода сверки шинглов, сравнение текстов по контрольным суммам может осуществляться на случайных выборках.
Определение результата – на основе сравнения выдается результат, указывающий на уникальность проверяемого текста. Результаты отражаются в процентах: 100% – полностью уникальный текст, 0% – полностью неуникальный текст, т.е. такой текст уже существует.
1.3. Как ВУЗам и студентам сэкономить на проверках в Антиплагиат?
Антиплагиат использует шингл из 3 слов. Другими словами, текст, после перефразирования должен отличаться от текста источника, при сверке по шинглам, состоящим из 3 слов, на 100%, рис. 5. У КонтрПлагиата другой подход, тексты перефразируются так, чтобы при сверке по шинглам состоящим из двух слов, источник и текст рерайта отличались на 80—90%, рис. 6.
Рисунок 5 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, отличие текстов 100%
Рисунок 6 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, желтым выделены шинглы, которые не изменились, отличие текстов 95%
Я его слепила из того, что было. А потом что было, то и полюбила
Тексты, которые используются в академической сфере – специфичны тем, что базовое знание, определения, распространённые подходы, методы, порядок изложения и т. д. многократно используются в разных работах, разными ВУЗами, на протяжении десятилетий. С введением в практику ВУЗов антиплагиата все студенческие тексты смело можно отнести к высокочастотным, их сотни и тысячи раз перефразировали, пытаясь добиться уникальности и каждый текст, сходной тематики должен быть перефразирован вновь так, чтобы он не напоминал предыдущие, а проверка будет осуществляться по таким крошечным частям текста, как шинглы.
Согласно обобщенных данных, АО «Антиплагиат» занимает ок. 80% отечественного рынка проверок работ на наличие заимствований, что характеризуется цифрой – 16 млн. проверок, стоимость одной проверки 472 руб. Любой маркетолог восхититься маркетингом этой компании, бросающей взгляды на зарубежье (возможна проверка на 100 языках).
Вероятно показатель количества проверок, по итогам 2023 г. прирастет, т. к. Антиплагиат учится выявлять генеративные тексты, написанные с помощью (ИИ, AI): GPT, GPT-3, GPT-3,5, GPT-4, ChatGPT (все версии), monica, jasper, neuraltext, writesonic, sber, NeuralWriter, neuro-texter, YandexGPT и др., и если генеративный текст найден, выдается уведомление – «Внимание, документ подозрительный: в документе присутствует сгенерированный текст».
В марте 2022 г. АО «Антиплагиат» увеличил стоимость проверок с 270 руб. до 472 руб., в этой связи справедливо задаться рядом вопросов, как студентам и ВУЗам РФ сэкономить на проверках, обеспечивая высокое качество студенческих работ.
Сущность глубокого перефразирования, как легального и рекомендованного метода повышения уникальности текстов
Глубокое перефразирование, это изложение текста источника «своими» или «другими словами», без потери смыслового содержания. В процессе перефразирования автор добивается отличия нового текста от текста источника. Академический рерайт, или академическое перефразирование – изложение текстов, научного содержания, своими словами.
Пример GPT-промпта 1
Перефразируй текст, используй научный стиль изложения, сохрани абсолютно все факты, имена собственные, законы и логику изложения [ваш текст]
Согласно промпта 1 мы перефразировали текст в GPT и сверили его на отличия по методу шинглов, состоящих из двух слов (Ш2), тексты отличаются на 58%, рис. 7, следовательно, такой текст проверку в Антиплагиат не пройдет, т.к. пороговое значение отличия по показателю Ш2 – более 80%.
С целью объективности, повысим уникальность исходного текста с помощью КонтрПлагиат, рис. 8.
Рисунок 7 – Сверка текста источника (правое окно) с текстом, перефразированным GPT (левое окно) по методу шинглов, состоящих из 2 слов, желтым выделен текст, который не изменился – отличие 58%
Рисунок 8 – Сверка текста источника (правое окно) с текстом, перефразированным КонтрПлагиат (левое окно) по методу шинглов, состоящих из 2 слов – отличие 88%
Как рассчитать объем дефицита уникального текста
Имеется текст, объемом 100 тыс. знаков, текущая уникальность 20%, требуется 70%. Сколько текста нужно изменить по методу шинглов, чтобы достичь нужного показателя оригинальности.
Расчет количества знаков в 1% текста:
100 тыс. знаков / 100% = 1 тыс. знаков содержится в 1% текста
Расчет дефицита уникальности:
Требуемая оригинальность – оригинальность имеется = дефицит оригинальности
Расчет объема знаков для покрытия дефицита оригинальности текста:
Дефицит оригинальности * количество знаков в 1% текста
Обоснование метода подготовки текстов для проверки в Антиплагиат ВУЗ
Библиотеки, из источника знаний, превратились в источники плагиата. Проблему усугубляет ограниченность формулировок знаний, как правило все учебные программы унифицированы (однообразны) и опираются на официальный перечень учебной литературы. В этой связи, любой текст, опирающийся на источники, имеет низкий показатель уникальности, т.к. текст пишется с использованием метода научной компиляции, используются общеизвестные знания и распространённые формулировки.
В этой связи проверять свеженаписанный (скомпилированный) текст в Антиплагиат ВУЗ не имеет смысла, т.к. чуда не случится, и он покажет недостаточную уникальность.
Вновь созданный текст (первичный) необходимо подвергнуть глубокому перефразированию. Проверку в Антиплагиат ВУЗ следует выполнять после получения показателя отличия вторичного текста от первичного по показателю Ш2 на 80% и более процентов.
Данный подход может привести к двум возможным результатам:
– требуемая уникальность достигнута;
– необходимая уникальность не достигнута.
В случае недостижения уникальности, руководствуясь отчетом о полной проверке, необходимо места плагиата подвергнуть вторичному глубокому перефразированию, с показателем Ш2 – 90—95%.
После вторичной глубокой переработки, текст может быть проверен в системе поиска заимствований, как правило второй проверки достаточно, для получения необходимого уровня уникальности.
Почему не получается, после первой проверки, перефразировать места плагиата и достигнуть нужный процент. Да, такая проблема существует, вторая проверка покажет, что текст, который в перовой проверке не был плагиатом, местами отмечен таковым и процент не набран. Антиплагиат оценивает текст в совокупности, к сожалению схитрить не получится, текст необходимо перефразировать полностью, так, чтобы при сверкам по шинглам, состоящим из 2 слов он отличался от источника более чем на 80%.
Инструментальная среда глубокого перефразирования
Мы не касаемся практики реализации процесса глубокого перефразирования, смысл которого заключается в изложении текста «своими словами». Технически мы преследуем цель изменения шинглов, состоящих из 2 слов, на 80 и более процентов.
Измерить данный показатель возможно используя бесплатный продукт AntiPlagiarism.NET, доступный для скачивания на сайте: etxt.
Работать в программе достаточно просто, в левое окно помещается текст рерайта (подвергнут глубокому перефразированию), в правое окно помещается первичный текст (источник, текст до рерайта). За считанные секунды программа выдает процентное значение показателя отличия текста, по методу Ш2 или с учетом определения рерайта (параметр расположен в нижнем, правом углу интерфейса программы).
Если тексты отличны по показателю Ш2 на 80 и более процентов, это является основанием для проверки текста в Антиплагиат ВУЗ, если данный показатель не получен, то повода отдавать текст на платную проверку – нет.
Применение метода в практике ВУЗов
Бесплатное программное обеспечение AntiPlagiarism.NET позволяет сверять тексты на отличие – локально.
По нашему мнению, вновь написанная работа должна пройти перефразирование и локальную проверку, с учетом показателя Ш2, с применением программного обеспечения AntiPlagiarism.NET. Если показатель отличия текста Ш2 до рерайта и после рерайта находится на уровне больше 80%, то данная работа может быть отправлена на проверку в Антиплагиат ВУЗ.
Если показатель уникальности, при локальной сверке текстов, находится на существенно более низком уровне, то проверять работу в антиплагиат не имеет смысла, данная работа должна быть подвергнута дополнительному перефразированию, автору необходимо добиться рекомендованных показателей отличия текстов. В случае получения заданного показателя отличия текстов, работа может быть направлена на проверку в Антиплагиат ВУЗ, для получения справки.
Данный подход примечателен тем, что для успешного прохождения потребуется одна проверка, если текст высокочастотен, то две. Экономический эффект для автора – ощутимый, для ВУЗа – более чем ощутимый, т.к. не только снижает трудозатраты специалистов, экспертов проверки, но и экономит немалые денежные средства, которые могут быть направлены на развитие ВУЗа и улучшение качества учебного процесса в высшей школе.