Читать книгу GPT студентам. 580 промптов способных решить любую проблему. Промпт-инжиниринг для написания исследований, от плана до списка литературы, решения задач, генерации исследовательских идей, ускорения рутинных процессов, успешного и честного прохождения антиплагиат вуз - - Страница 5
АНТИПЛАГИАТ, ТОТ, КОТОРЫЙ ВУЗ
1.3. Метод шинглов в повышении уникальности текстов
ОглавлениеШингл (далее – Ш) – последовательность количества слов (2, 3, 4, 5 и т.д.), используемая в алгоритме проверки уникальности текста, рис. 25. Уникальность проверяется путем сравнения текста источника с текстом, который был перефразирован. Данную сверку можно проводить локально, используя бесплатный продукт AntiPlagiarism.NET.
Рисунок 25 – Лемматизированный текст, как выглядят шинглы, состоящие из 2 слов (Ш2)
При проверке в антиплагиат ВУЗ, текст работы сверяется с данными базы (другими текстами, проиндексированными ранее).
При определении уникальности текста проверяемой работы, в системе Антиплагиат происходит следующее:
– Нормализация (канонизация) текста – удаление из текста элементов, не несущих смысловой нагрузки, шаблонных фраз, предлогов, союзов, знаков препинания и др.
– Лемматизация – приведение слов к нормальной форме, рис. 25.
– Разбиение текста на фрагменты – шинглы, конец каждого фрагмента является началом предыдущего, рис. 25.
– Вычисление хэш-значения фрагмента слова – на этом этапе начинается сравнение текста. Точность сравнения напрямую зависит от количества операций – это достаточно ресурсоемкий процесс. Чтобы увеличить производительность метода сверки шинглов, сравнение текстов по контрольным суммам может осуществляться на случайных выборках.
– Определение результата – на основе сравнения выдается результат, указывающий на уникальность проверяемого текста. Результаты отражаются в процентах: 100% – полностью уникальный текст, 0% – полностью неуникальный текст, т.е. такой текст уже существует.
На что опирается методология КонтрПлагиат, при использовании метода шинглов?
1) Мы исходим из того, что:
– уникальных текстов в академической среде не осталось. Все, что может исследовать студент, уже исследовано.
– любой текст, скомпилированный из Интернет-источников и печатных библиотек – плагиат.
– если текст скомпилирован поабзацно, и компиляция показывает уникальность, это связано с уникальным сочетанием абзацев. Изменение порядка следования абзацев или правка текста, внутри абзаца, может привести к появлению плагиата.
– показатель уникальности, это совокупная оценка всей работы, «хитрый» метод правки мест плагиата, при следующей проверке выявляет плагиат в тех местах, которые в предыдущей проверке плагиатом не являлись.
В процессе проверки первого варианта работы, она попадает в индекс антиплагиата. С этого момента она считается первой версией. Все последующие проверки учитывают первую версию, и отслеживают процент изменения 2, 3, 4 версии работы по отношению к первой версии. Другими словами, повышая уникальность текста методом глубокого перефразирования вы, в том числе, противостоите первой версии своей работы и должны показать, что текст после перефразирования существенно отличается от первой версии.
2) Любой текст перед первой проверкой должен подвергаться глубокому рерайту – это снижает последующие трудозатраты, т.к. вы не противостоите первой, второй, третьей и т. д. версиям своей работы. В процессе перефразирования, рерайта, необходимо добиться отличия текстов источника и перефразированного текста. Данное отличие, при сверке по показателю Ш2 должно составлять более 80%.
Поверхностный рерайт
Поверхностный рерайт обеспечивает двойной перевод текста – на любой иностранный язык и обратно на рис. 26 показан перевод текста с русского на английский язык и обратный перевод с английского на русский. Текст, при сверке по шинглам, состоящим из 2 слов (показатель Ш2) показывает отличие на уровне 20—40%, рис. 27.
Рисунок 26 – Перевод текста в направлении: русский-английский; английский-русский, с помощью translate.google.com
Рисунок 27 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 30%
Применение GPT также обеспечивает поверхностный рерайт, на рис. 28 приведен интерфейс, в котором выполняется перефразирование с помощью GPT, применяется промпт 1.
Пример GPT-промпта 1
Перефразируйте текст [ваш текст]
Рисунок 28 – Перефразирование текста с помощью GPT
На рисунке 29 представлена сверка текста по методу Ш2, как видно тексты отличаются на 40%.
Рисунок 29 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 40%
Известно, что GPT допускает ошибки, поэтому с целью их частичного исправления, дальнейшего повышения уникальности, а также удаления маркеров генеративного текста, можно выполнить вторичный перевод текста в направлении: русский-английский; английский-русский, с помощью translate.google.com, рис. 30.
Рисунок 30 – Перевод текста, после GPT-обработки, в направлении: русский-английский; английский-русский, с помощью translate.google.com
Рисунок 31 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 55%
Все последовательности действий, приведенные выше дают поверхностное перефразирование, практикой доказано, что это не позволяет добиваться нужного показателя уникальности всего текста.
Глубокий рерайт
Глубокий рерайт, обеспечивает существенное отличие текстов, на основании практического опыта установлено, что текст источника должен отличаться от перефразированного текста, при сверке по показателю Ш2 на 80 и более процентов. Рассмотрим, как этого можно добиться.
Шаг 1 – выполнить перевод текста в направлении: русский-китайский (традиционный); китайский (традиционный) -русский, с помощью translate.google.com. Это даст нам показатель Ш2 – 64%, рис. 32.
Рисунок 32 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 64%
Шаг 2 — написание нового текста на основании текста перевода, с помощью GPT. Источником является текст после перевода: русский-китайский (традиционный); китайский (традиционный) -русский.
Пример GPT-промпта 2
Напишите новый текст, используя источник [текст после перевода: русский-китайский (традиционный); китайский (традиционный) -русский]
Рисунок 33 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 74%
Как видно, в результате GPT-генерации нового текста мы использовали текст источника, после перевода: русский-китайский (традиционный); китайский (традиционный) -русский, это дало показатель отличия Ш2 – 74%.
Шаг 3 – вторичный перевод генеративного GPT-текста: русский-китайский (традиционный); китайский (традиционный) -русский. Вторичный перевод обеспечивает частичное исправление ошибок GPT-генерации, дальнейшее повышение уникальности, а также удаление маркеров генеративного текста, рис. 34.
Рисунок 34 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 78%
Шаг 4 – согласно карте шинглов, в левом окне программы производится ручная правка не измененных шинглов, состоящих более чем из 2 слов, методом впечатывания, подходящих по смыслу новых слов, рис. 35.
Рисунок 35 – Ручное изменение Ш2
Обратите внимание, в силу несовершенства технологий Google и GPT, текст содержит ошибки, поэтому, разбивая шинглы их нужно исправлять. Текст после перефразирования уменьшил объем и потерял ссылки на источники цитирования, значит это тоже предстоит подправить.
Почему не рекомендуется использовать другие переводчики:
– Deepl – позволяет переводить 1500 знаков в интерфейсе, при переводе файлом, он защищен от копирования, главный недостаток в том, что Deepl старается обеспечить высокую точность перевода, а значит отличие текстов минимизируется и все усилия по перефразированию снижаются, рис. 36.
Рисунок 36 – Интерфейс Deepl
– Переводчик Промт (translate.ru) – обладает собственным пониманием текста, уникальность повышается, но смысл теряется, поэтому предстоит много правки, рис. 37.
Рисунок 37 – Переводчик Промт (translate.ru)
С образовательной точки зрения, данный подход к перефразированию несет обучающий потенциал, т.к. при компиляции текстов из учебников, студент читает правильный текст, а при прочтении текста после двойного перевода и GPT генерации, приходится вычитывать текст, вдумываться в смысл и исправлять неточности. Тем не менее, это значительно быстрей чем перефразировать текст полностью руками.
Почему тексты, перефразированные указанным способом, не определяются как генеративные:
– GPT и программа-переводчик – это совершенно разные модели, Антиплагиат детектирует GPT-подобные модели;
– текст, после перефразирования содержит шинглы, состоящие из 2 слов, их последовательности похожи на последовательности текста источника, при генерации в GPT, согласно примитивным запросам, таких последовательностей достаточно мало, другими словами, Антиплагиат не понимает откуда копипаста текста.
Глубокое академическое перефразирование КонтрПлагиат
Глубокий рерайт, рассмотренный выше выполнялся с применением переводчика Google и GPT, пришлось применить ручной труд для исправления ошибок и достижения необходимого показателя отличия текстов Ш2.
Заметно упрощает процесс глубокого перефразирования академическая нейросеть КонтрПлагиат. Перефразирование осуществляется следующим образом:
Шаг 1 – перегенерация текста, с одновременной сверкой по методу Ш2. В процессе перегенерации используется модель не известная GPT-подобным системам и антиплагиат РУ, в частности, в этом заключено несомненное преимущество нейросети КонтрПлагиат.
На рис 38 приведены результаты опроса, где мы попросили наших читателей найти текст, перефразированный с помощью КонтрПлагиат, результаты опроса показательны, текст, после рерайта КонтрПлагиат человеческим глазом идентифицирован не был.
Рисунок 38 – Опрос, проведенный нами ВК
Шаг 2 – исправление ошибок перегенерации, с одновременной сверкой по методу Ш2. Исправление ошибок не должно возвращать Ш2, как в тексте источнике.
В результате перефразирования получается текст, который соответствует критериям перефразирования, показатель Ш2 – больше 80%, рис. 39.
Рисунок 39 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 92%
Пример полученного, рис. 39 текста
Анализ особенностей менеджмента и финансирования современных российских энергетических компаний и предприятий является важным аспектом диссертационного исследования, поскольку определяет не только уровень новационности, адаптивности, рыночной устойчивости, энергетической защищенности и безопасности, энерго-экономической эффективности самого предприятия, но и функционирования обслуживаемого им сектора экономики (в основном промышленности). Использование энергоносителей при производстве и поставке товаров и услуг является важным фактором, определяющим добавленную стоимость товаров и услуг. Переход к более экологичным и экономически эффективным методам промышленного производства возможно начать с анализа и изучения динамики изменения системы энергоснабжения. Эти выводы основаны на результатах большого числа исследований, проведенных в России и за рубежом по различным проблемам развития промышленности [9, 10, 12, 14, 16, 17, 25, 26].
Так, ученый Н. Г. Борисюк считает, что ресурсные возможности и потенциал целого ряда энергетических предприятий и всей целостности ТЭК (топливно-энергетического комплекса) в целом является основой устойчивого развития и выступает драйвером реструктуризации отечественной экономики. По его данным, на долю отраслей ТЭК в России приходится около 80% промышленного воспроизводства [31,C.73], а 16% промышленно-производственной рабочей силы страны занято на предприятиях и в субъектах экономической деятельности, относимых к ТЭК [34,C.73]. Одним из направлений изменений и реструктуризации отечественной экономики, рассматриваемых данным исследователем, является кластеризация, в которой предприятия топливной энергетики выделяются в качестве центра кластеров.
Сегодня, когда все большее значение приобретает стратегия перехода к низко углеродной (зеленой) экономике и более устойчивым моделям производства и потребления энергии, необходимо анализировать передовой опыт повышения энергоэффективности в различных отраслях и изучать инвестиционные и технологические возможности в ТЭК [60, C. 34]. Отметим, что в то же время энергетический рынок формируется под воздействием спроса и предложения на все виды энергоносителей, включая традиционные носители энергии – углеводороды и возобновляемые источники энергии. Сегодня структура потребительских предпочтений и реальный спрос на энергию претерпевают значительные изменения. В результате энергетическим компаниям приходится искать новые организационные и технологические решения на всех этапах технологических процессов и производственных цепочек – от добычи ископаемых до распределения энергетических ресурсов между потребителями.
Применение современных теорий и практик управления позволяет эффективно организовывать и координировать ресурсы субъектов отрасли топливной энергетики, энергетических компаний для обеспечения их устойчивого и динамичного развития. Прежде чем внедрять новые технологии, необходимо приобрести нематериальные ресурсы, такие как опыт и знания, характерные для отечественного ТЭК. Для того чтобы создать необходимую базу для этих ресурсов, необходимо развивать человеческие ресурсы энергетических подразделений и компаний. Специфика развития ТЭК требует определения его структуры, субъектного состава участников и четкое выделение их места в общей организационной структуре.
Очевидными достоинствами КонтрПлагиат выступают:
– целостность процесса, все происходит в «одном окне» или в «одном файле». Файл загружается в интерфейс, выгружается в формате. docx, следовательно сохраняется оформление документов и уменьшается объем ручных манипуляций;
– скорость обработки – 1 млн. знаков в час, что заметно превышает скорость генерации текста в GPT;
– качество текста выше, чем у всех известных моделей, показатель Ш2 превосходит показатели всех известных моделей, рис. 40.
Рисунок 40 – Сравнительная характеристика нейросетей, 2023 г.
Таким образом, процесс повышения уникальности текста прост, перевод с русского на иностранный язык и обратно; GPT-перегенерация; повторение операции перевода с русского на иностранный язык и обратно; правка не изменённых шинглов; вычитывание и правка неточностей.
Как убрать статус – «Внимание, документ подозрительный: в документе присутствует сгенерированный текст»
Что делать при наличии в Антиплагиат уведомления о генеративном тексте? Есть два подхода, рекомендуется применение обоих, в любой последовательности.
Текст может генерироваться на основании примитивного запроса, это когда всю мощь ИИ используют как поисковик, например, «перечисли методы анализа конкурентоспособности, дай характеристику каждому методу». В результате сложной перегенерации задаются условия генерации и предоставляется прототип текста, на основании которого GPT пишет новый текст.
На момент написания данного пособия Антиплагиат проверял текст, выделяя генеративный кусками по 3000 знаков.
Первый метод – «разбавление» текстов ИИ аналогичными по смыслу абзацами, текста, написанным человеком. Таким образом, текст ИИ не будет выглядеть «формальным и искусственным», а будет более убедительным и доверительным.
Как вставить нужные абзацы? Вы можете найти в Интернете соответствующие статьи и выбрать из них подходящие абзацы. В качестве альтернативы можно воспользоваться поисковым сервисом, который подберет похожие справочные статьи, и вы сможете из них заимствовать человеческий текст, рис. 41.
Рисунок 41 – Поиск справочных статей
Вставляя абзацы из интернета, вы должны убедиться, что они относятся к теме вашей работы и датируются периодом до 2021 года.
Схема добавления интернет текстов проста, – добавление 2 абзацев, по 2—4 предложения в каждом, через 2—3 абзаца текста ИИ или добавление 1 абзаца, через 2—3 абзаца текста ИИ.
Второй метод, генеративный текст подвергается синонимизации, на выходе мы получаем классический синонимизированный текст, рис. 42.
Рисунок 42 – Текст, после синонимизации, процент замен – 19,7%
Синонимизированный текст переводим с русского на китайский и обратно, получаем отличие генеративного текста к тексту после синонимизации и перевода – 44%.
Рисунок 43 – Сверка генеративного текста (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 2 слов (Ш2), отличие текстов 44%
Пример текста после синонимизации и восстановления методом двойного перевода
Для достижения целей и задач диссертационного исследования необходимо исследовать особенности управления и финансирования российских энергетических компаний, развивающихся в современных условиях, с точки зрения их роли в обеспечении инновационности, адаптивности, устойчивости, энергетической безопасности, энергетической и экономической производительности. Добавленная стоимость любых товаров и услуг зависит, в том числе, и от энергии, затраченной на их производство или предоставление. Переход к более экологичным и экономически устойчивым методам промышленного производства также начинается с пересмотра и реформирования системы энергоснабжения. Эти утверждения основаны на понимании многочисленных отечественных и международных исследований, посвященных теме формирования различных промышленных секторов [9, 10, 12, 14, 16, 17, 25, 26].
Так, по мнению ученого Н. Г. Борисюка, ресурсный потенциал как отдельных энергетических предприятий, так и топливно-энергетических комплексов является основой устойчивого развития и реструктуризации экономики. По его данным, в России «на долю топливно-энергетических комплексов приходится около 80% промышленного производства» [31, С. 73], «ТЭК – основа устойчивого развития и реструктуризации экономики [31, C. 73], которые являются основой устойчивого развития и реструктуризации экономики [31, C. 73], а на предприятиях и организациях ТЭКа занято «16% промышленно-производственной рабочей силы страны» [34, С. 73]. В качестве одного из направлений реструктуризации экономики, по мнению данного исследователя, предприятия топливно-энергетического комплекса выбраны в качестве центрального звена кластера.
Отлично зарекомендовала себя комбинация, синонимизация + двойной перевод + вставка абзацев, рис. 44.
Рисунок 44 – Текст, после очеловечивания