МАШИННОЕ ОБУЧЕНИЕ ПРИ АДАПТАЦИИ УЧЕБНЫХ ТЕКСТОВ: ЛЕКСИЧЕСКИЙ АСПЕКТ
Аннотация
Обучение в школах инофонов в смешанных классах требует адаптации учебных материалов, особенно по дисциплинам гуманитарного цикла. Процесс адаптации отличается большой трудоёмкостью, однако с учётом того, что адаптация осуществляется под определённый уровень владения русским языком как иностранным, а значит, предполагает соответствие чётким требованиям, может быть отчасти автоматизирован. В статье представлены результаты апробации методов машинного обучения по адаптации учебных текстов на лексическом уровне. Материалом адаптации стал учебник по истории России за 11 класс, в котором были произведены синонимические замены ряда лексем на слова, включённые в лексический минимум уровня А1. Для осуществления замен был создан словарь синонимов, в котором заголовочными словами являются слова из лексического минимума уровня А1; отбор синонимов осуществлялся с учётом их частеречной принадлежности из словарей синонимов, размещённых на сайте https://academic.ru/. Были проведены токенизация текста, морфологический анализ слов, приведение их в начальную форму, замена на синонимы из лексического минимума и дальнейшее приведение синонимов в нужную грамматическую форму. Дальнейшая работа предполагала проверку адекватности произведённых замен и анализ ошибок. Алгоритм показал высокую степень точности при осуществлении замен; допущенные ошибки проанализированы и классифицированы. Выделены пять типов ошибок: 1) ошибки, связанные с семантикой многозначного слова, 2) ошибки, связанные с системными отношениями в лексике, 3) ошибки, связанные со стилистическими особенностями словоупотребления, 4) ошибки, связанные с употреблением устойчивых / лексикализованных сочетаний, 5) ошибки, связанные с культурой оформления печатного текста. Основными причинами возникновения этих ошибок стали: 1) неразличение лексико-семантических вариантов многозначного слова или неразличение омонимов, 2) неразличение стилистически окрашенных и нейтральных синонимов, 3) неузнавание имён собственных (географических наименований, имен и фамилий людей), 4) неузнавание условных сокращений, принятых в специализированных изданиях. Предложены шаги по усовершенствованию работы алгоритма: анализ многозначных слов и омонимов, входящих в минимум, для уточнения их значений; введение критерия вероятности использования слова как стилистически окрашенной единицы расширение словаря синонимов за счёт включения в него лексикализованных сочетаний, имён собственных, наиболее частотных условных сокращений.
Скачивания
Литература
2. Государственный стандарт по русскому языку как иностранному. Элементарный уровень / Владимирова Т. Е. и др. СПб., 2001. 28 с.
3. Коротышев А. В. «Матрица адаптации» как комплекс приёмов для отбора и адаптации художественного текста в аспекте РКИ // Мир русского слова. 2014. № 1. С. 79–85.
4. Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. 2021. Т. 19. № 3. C. 331−345.
5. Лексический минимум по русскому языку как иностранному: элементарный уровень: общее владение / Н. П. Андрюшина, Т. В. Козлова. СПб., 2012. 79 с.
6. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. М., 1990. 682 с.
7. Мильчин А. Э., Чельцова Л. К. Справочник издателя и автора. Редакционно-издательское оформление издания. М., 2003. 800 с.
8. Ниценко А. В., Шелепов В. Ю., Большакова С. А., Ивашко К. С. О словесных заменах, сохраняющих смысл русского предложения // Проблемы искусственного интеллекта. 2020. № 1 (16). С. 63−74.
9. Шарафутдинова О. И. Детская литература на уроках РКИ: к проблеме адаптации художественного текста // Проблемы преподавания филологических дисциплин иностранным учащимся. Воронеж, 2010. С. 115−119.
10. Akhmetov I., Krassovitskiy A., Ualiyeva I., Gelbukh A., Mussabayev R. An Open-Source Lemmatizer for Russian Language based on Tree Regression Models // Research on computing science. 2020. URL: https://www.researchgate.net/profile/Iskander-Akhmetov/publication/344473509_An_Open Source_Lemmatizer_for_Russian_Language_based_on_Tree_Regression_Models/links/5f7af121299bf1b53e0e460a/AnOpen-Source-Lemmatizer-for-Russian-Language-based-on-Tree-Regression-Models.pdf. (дата обращения 16.05.2024).
11. Dereza, O. V., Kayutenko, D. A., Fenogenova, A. S.: Automatic morphological analysis for Russian: a comparative study // Proceedings of Student Session of Dialogue-2016. 2016. URL: https://www.dialog-21.ru/ media/3473/dereza.pdf. (дата обращения 16.05.2024).
12. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. 2015. P. 320−332.
13. Kotelnikov E., Razova E. and Fishcheva I. A Close Look at Russian Morphological Parsers: Which One Is the Best? // Communications in Computer and Information Science, 2018.
14. Kuzmenko E. Morphological analysis for Russian: integration and comparison of taggers. In: Proceedings of 5th International Conference on Analysis of Images, Social Networks and Texts (AIST-2016). 2016. P. 162–171. URL: https://www.hse.ru/data/2016/06/10/1117658168/morphological-analysis-russian-1.pdf. (дата
обращения 16.05.2024).
15. Litvinova T., Seredin P., Litvinova O., and Zagorovskaya О. Differences in type-token ratio and partof-speech frequencies in male and female Russian written texts // Proceedings of the Workshop on Stylistic Variation. Association for Computational Linguistics. Copenhagen, Denmark, 2017. P. 69–73. URL: https://
aclanthology.org/W17-4909.pdf. (дата обращения 16.05.2024).
Ключевые слова

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Наиболее читаемые статьи этого автора (авторов)
- Ольга Юрьевна Редькина, Андрей Анатольевич Селютин, ТЕКСТОЦЕНТРИЧНОСТЬ РУССКОЙ КУЛЬТУРЫ И ЕЕ ОТРАЖЕНИЕ В ЯЗЫКОВОМ СОЗНАНИИ МОЛОДЕЖИ , ВЕСТНИК ЧЕЛЯБИНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА: № 5 (475) (2023): Вестник Челябинского государственного университета