ПРОГРАММНЫЕ ВОЗМОЖНОСТИ ИДЕНТИФИКАЦИИ ТЕКСТОВ: СОПОСТАВЛЕНИЕ НА СХОЖЕСТЬ, УСТАНОВЛЕНИЕ ТОЖДЕСТВА, ПРОВЕРКА НА УНИКАЛЬНОСТЬ
Аннотация
Исследование выполнено в рамках идентификационной лингвистики и лингвистической вариантологии. В статье описаны некоторые способы установления степени схожести текстов: алгоритм шинглов, расстояние Левенштейна, системы по выявлению плагиата. Цель работы — описание и апробация программных возможностей сопоставления текстов на схожесть, установления их тождества, проверки на уникальность. В широком смысле данные задачи входят в область идентификации текста. При качественной (ручной) оценке схожести текстов происходит выбор и отбор идентифицирующих параметров специально для исследуемого текста. Использование электронных ресурсов обусловлено стремлением к объективности применяемых методов установления тождества текстов и объективности получаемых результатов. Программные продукты также позволяют установить иную, квантитативную, характеристику — степень схожести текстов друг с другом или степень оригинальности текста. В работе использованы сервисы, в задачи которых входит: 1) сравнение текстов на схожесть; 2) обнаружение заимствования (плагиата). Материалом исследования явился отрывок интервью главы МИД Сергея Лаврова. Вариантами для сравнения с исходным текстом послужили тексты обратного машинного перевода. Обратный машинный перевод как транслятивный продукт — часть искусственного интеллекта и модель процесса понимания и интерпретации естественного языка. Результаты использования предложенных сервисов позволили расположить пять вариантов текстов обратного машинного перевода от наиболее уникального к наиболее тождественному исходному. Исследование показало, что программы в целом дают схожие результаты, которые могут быть применимы для решения исследовательских и прикладных задач, связанных с установлением тождества и различия текстов. Перспектива исследования — выявление лексических параметров, позволяющих классифицировать вторичные тексты обратного машинного перевода как наиболее или наименее тождественные по отношению к первичному варианту.
Скачивания
Литература
2. Андреева Е. И., Манжиков Т. В., Славин О. А. Сравнение оцифрованных страниц деловых документов на основе распознавания // Сенсорные системы. 2018. Т. 32. № 1. С. 35–41.
3. Баринова И. А., Нестерова Н. М., Овчинникова И. Г. «Языковое сознание»: к вопросу об определении и интерпретации термина // Вестник Пермского национального исследовательского политехнического университета. Проблемы языкознания и педагогики. 2010. № 4. С. 10–21.
4. Башкатова Ю. А. Обратный машинный перевод как способ измерения смыслового тождества / различия вариантов текста // Современная парадигма анализа языка и межкультурной коммуникации и ее аппликативный потенциал в обучении родному и иностранному языкам : материалы нац. научн. конф. (Барнаул, 18–19 сентября 2019 г.). Барнаул : Алтайск. гос. пед. ун-т, 2020. С. 18–23.
5. Вахлаков Д. В., Мельников С. Ю., Пересыпкин В. А. Многоэтапный метод автоматической коррекции искаженных текстов // Известия Южного федерального университета. Технические науки. 2020. № 7 (217). С. 35–45.
6. Волынкин П. А., Гянджиев Э. Э. Идентификация авторства текста при помощи частотных портретов // European Scientific Conference : сб. статей X Междунар. науч.-практ. конф. Пенза, 2018. Ч. 1. С. 150–155.
7. Гельман В. Я. Проблемы формально-механистического подхода к выявлению плагиата в научных работах // Экономика науки. 2020. Т. 6, № 3. С. 180–185.
8. Голев Н. Д. Источниковый потенциал обратного машинного перевода // КРСУ жарчысы. 2018. Т. 18. № 1. С. 36–45.
9. Голев Н. Д. Транслятивная лингвистика (аспектуализированный обзор исходных положений). Часть 1. Гносеология перевода // Вестник Кемеровского государственного университета. 2022. Т. 24. № 6 (94). С. 717–734.
10. Карахтанов Д. С. Программная реализация алгоритма Левенштейна для устранения опечаток в записях баз данных // Молодой ученый. 2010. Т. 1, № 8 (19). С. 158–162.
11. Морозов А. В. Обратный лексикографический перевод как метод исследования деривационного потенциала русского слова в межъязыковом пространстве // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2004. № 1. С. 71–74.
12. Напреенко Г. В. Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) : автореф. дис. … канд. филол. наук. Кемерово, 2015. 26 с.
13. Напреенко Г. В. Феномен идентификации и идентификационная лингвистика // Мир науки, культуры, образования. 2022. № 5 (96). С. 365–368.
14. Огорелков И. В. Автороведческая идентификация текстов политического дискурса: эволюция методов // Лингвополитическая персонология: дискурсивный поворот : материалы Междунар. науч. конф. Екатеринбург, 2019. С. 159–161.
15. Павлов А. А. О применении авторами научных текстов технических приемов, искажающих результаты проверки уникальности текстов. Обзор проблемы, опыт выявления и анализ подобных текстов // Научная периодика: проблемы и решения. 2020. Т. 9. № 3–4. URL: https://nppir.ru/01NP320.html (дата обращения: 08.05.2023).
16. Платонов А. А., Потапов Р. Е. Обнаружение дубликатов статей в системе автоматического сбора информации из открытых источников об экологической обстановке // Известия Волгоградского государственного технического университета. 2015. № 6 (163). С. 79–82.
17. Потемкин С. Б. Машинный перевод как средство стандартизации терминологии // Вестник Московского государственного областного университета. Серия: Лингвистика. 2017. № 5. С. 77–84. 18. Славин О. А., Андреева Е. И., Арлазаров В. В. Поиск фальсификаций в копиях деловых документов // Математические методы в технике и технологиях — ММТТ. 2020. Т. 6. С. 96–100.
19. Тимофеев В. В. Анализ современных тенденций использования системы «Антиплагиат» при проверке учебных и научных работ // Вестник Калининградского филиала Санкт-Петербургского университета МВД России. 2023. № 2 (72). С. 136–140.
20. Усачева Е. А. К вопросу о допустимости использования системы «Антиплагиат» для определения авторства и оценки оригинальности произведения // Образование и право. 2019. № 4. С. 204–210.
21. Харченко С. Г., Докукин П. А., Кучер Д. Е. К вопросу о методологии оценки научных публикаций // Самарская Лука: проблемы региональной и глобальной экологии. 2022. Т. 31. № 4. С. 61–68.
22. Хованская Т. В., Сандирова М. Н. Использование системы «Антиплагиат» в высшей школе // Проблемы современного образования. 2019. № 3. С. 51–58.
23. Чиркин Е. С. Использование систем антиплагиата в образовании // Вестник российских университетов. Математика. 2013. № 6 (2). URL: https://cyberleninka.ru/article/n/ispolzovanie-sistem-antiplagiatav-obrazovanii (дата обращения: 08.09.2023)
Ключевые слова
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.