СТОХАСТИЧНОСТЬ И ЭНТРОПИЯ В ЛИНГВИСТИКЕ

  • Елена Владимировна Шелестюк Челябинский государственный университет
  • Екатерина Алексеевна Щетинкина Челябинский государственный университет

Аннотация

Обсуждаются понятия стохастичности и энтропии текста, изучаются способы их измерения, рассматриваются спорные вопросы этих понятий и метрик. Выявляется связь стохастичности и энтропийности с категориями лингвистики текста (интегративностью и информативностью). Стохастичность текста — это непредсказуемость, хаотичность текстовых элементов, приводящая к эффекту новизны. Энтропия текста — это мера неопределенности содержания текста, она связана с объемом информации, содержащейся в данных: чем более неопределенны данные, тем больше информации требуется для их описания. Стохастичность описывает вероятностные характеристики данных, тогда как энтропия является мерой неопределенности, содержащейся в них. Поскольку энтропия и стохастичность имеют корреляцию, стохастичность может быть определена путем вычисления энтропии. Однако она также рассчитывается с использованием других методов и формул, в частности, перплексии, которая оценивает вероятность появления следующего слова в тексте на основе предыдущих слов. В лингвистике текста стохастичность и энтропия могут быть связаны с интегративностью (целостностью и связностью) текста. Они также могут определять информативность текста. Стохастичность может распространяться на текстовые информативные блоки и весь текст. Она создает семантическую сеть значений с внутренней целостностью и может определять семантическую и тематическую целостность текста (как часть интегративности). Уменьшение/ рост энтропии связаны с уменьшением/усилением информации в тексте, т. о. энтропия имеет основополагающее значение для измерения информативности текста. Она также может измерять связность текста (как часть интегративности) на основе количества, глубины и повторяемости элементов n-грамм. Такой «эмпирико-синтаксический» подход измеряет связность и информативность по чисто формальным показателям. Однако энтропия и стохастичность не всегда точно отражают информативность и интегративность текста из-за факторов читабельности, понятности текста, его восприятия как истинного и разумного.

Скачивания

Данные скачивания пока не доступны.

Литература

1. Адайкин В. И. и др. Новый метод идентификации хаотических и стохастических параметров экосреды // Вестник новых медицинских технологий. 2006. Т. ХIII, № 2. С. 39–41.
2. Бабайлова А. Э. Текст как продукт, средство и объект коммуникации при обучении неродному языку: социопсихолингвистические аспекты / под ред. А. А. Леонтьева. Саратов : Изд-во Сарат. ун-та, 1987.
3. Воробьева О. П. Стилистика текста // Стилистика английского языка : учебник для студентов интов и фак. иностр. яз. / А. Н. Мороховский, О. П. Воробьева, Н. И. Лихошерст, З. В. Тимошенко. Киев : Выща шк., 1991. С. 201–235.
4. Жинкин Н. И. Язык — речь — творчество : исслед. по семиотике, психолингвистике, поэтике: (избр. тр.). М. : Лабиринт, 1998. 364 с.
5. Леонтьев А. А. Основы психолингвистики. М. : Смысл, 1997. 221 с.
6. Марченко А. Д., Тырсин А. Н. Использование энтропии взаимосвязи в анализе текстов на естественном языке // Современные наукоемкие технологии. 2021. № 6-1. С. 67–73.
7. Мороховский А. Н., Воробьева О. П., Лихошерст Н. И., Тимошенко З. В. Стилистика английского языка. Киев : Вища школа, 1984. 247 с.
8. Тырсин А. Н. Энтропийное моделирование многомерных стохастических систем. Воронеж : Научная книга, 2016. 156 с.
9. Шахнарович А. М. Общая психолингвистика : учебник пособие. М. : Изд-во РОУ, 1995. 96 с.
10. Шереметьева С. О. Об использовании программ обработки текста для обучения иностранным языкам // Вестник ЮУрГУ. 2012. № 25. Серия «Лингвистика», вып. 15. C. 56–59
11. Штернберг М. И. Синергетика и биология // Вопросы философии. 1999. № 2. С. 95–108.
12. Blache P., Rauzy S. Predicting linguistic diffi culty by means of a morpho-syntactic probabilistic model // Proceedings of the 25th Pacifi c Asia Conference on Language, Information and Computation (PACLIC-2011), Singapore, 16–18 December 2011. P. 160–167.
13. Boston M. F., Hale J. T., Kliegl R., Patil U., Vasishth S. Parsing costs as predictors of reading diffi culty: An evaluation using the Potsdam Sentence Corpus // J. Eye Mov. Res. 2008. № 2. P. 1–12.
14. Brouwer H., Fitz H., Hoeks J. Modeling the Noun Phrase versus Sentence Coordination Ambiguity in Dutch: Evidence from Surprisal Theory // Proceedings of the 2010 Workshop on Cognitive Modeling and Computational Linguistics; Association for Computational Linguistics : Uppsala, Sweden, 2010. P. 72–80.
15. BruceET (https://math.stackexchange.com/users/221800/bruceet), Diff erence between stochastic process and chaotic system, URL: https://math.stackexchange.com/q/1349805
16. Clauset A. A brief primer on probability distributions. Santa Fe Institute, 2011.
17. Cook A. E., Myers J. L. Processing discourse roles in scripted narratives: The infl uences of context and world knowledge // J. Mem. Lang. 2004. № 50. Р. 268–288.
18. Farimani Foad S. What is the diff erence between chaotic systems and stochastic systems? URL: https://www.quora.com/What-is-the-diff erence-between-chaotic-systems-and-stochastic-systems/answer/Foad-SFarimani?ch=2&srid=iETG
19. Frank S. L. Surprisal-based comparison between a symbolic and a connectionist model of sentence processing // Proceedings of the 31st Annual Conference of the Cognitive Science Society; Cognitive Science Society: Austin, TX, USA, 2009. P. 1139–1144.
20. Frank S. L. Uncertainty reduction as a measure of cognitive load in sentence comprehension // Cogn. Sci. 2013. № 5. P. 475–494.
21. Frank S. L. Uncertainty reduction as a measure of cognitive processing eff ort // Proceedings of the 2010 Workshop on Cognitive Modeling and Computational Linguistics; Association for Computational Linguistics. Stroudsburg, PA, USA, 2010. P. 81–89.
22. Frank S. L., Haselager W. F., van Rooij I. Connectionist semantic systematicity // Cognition. 2009. № 110. P. 358–379.
23. Frank S. L., Koppen M., Noordman L. G., Vonk W. Modeling knowledge-based inferences in story comprehension // Cogn. Sci. 2003. № 27. P. 875–910.
24. Garrod S., Terras M. The contribution of lexical and situational knowledge to resolving discourse roles: Bonding and resolution // J. Mem. Lang. 2000. № 42. P. 526–544.
25. Hale J. T. A probabilistic Earley parser as a psycholinguistic model // Proceedings of the Second Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies; Association for Computational Linguistics. Stroudsburg, PA, USA, 2001. P.1–8.
26. Hale J. T. The information conveyed by words in sentences // Psycholinguist. Res. 2003. № 32. P. 101–123.
27. Hale J. T. Uncertainty about the rest of the sentence // Cogn. Sci. 2006. № 30. P. 643–672.
28. Hale J. T. What a rational parser would do // Cogn. Sci. 2011. № 35. P. 399–443.
29. Hess D. J., Foss D. J., Carroll P. Eff ects of global and local context on lexical processing during language comprehension. // Exp. Psychol. Gen. 1995. № 124. P. 62–82.
30. Jelinek F., Mercer R. Interpolated estimation of Markov source parameters from sparse data // Proc. of the Workshop on Pattern Recognition in Practice. Amsterdam, 1980. P. 381–397.
31. Knoeferle P., Crocker M. W., Scheepers C., Pickering M. J. The infl uence of the immediate visual context on incremental thematic role-assignment: Evidence from eye-movements in depicted events // Cognition. 2005. № 95. P. 95–127.
32. Knoeferle P., Habets B., Crocker M. W., Münte T. F. Visual scenes trigger immediate syntactic reanalysis: Evidence from ERPs during situated spoken comprehension // Cereb. Cortex. 2008. № 18. P. 789–795.
33. Levy R. Expectation-based syntactic comprehension // Cognition. 2008. № 106. P. 1126–1177.
34. Marr D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman : San Francisco, CA, USA. 1982.
35. Morris R. K. Lexical and message-level sentence context eff ects on fi xation times in reading // Exp. Psychol. Learn. Mem. Cogn. 1994. № 20. P. 92–102.
36. Myers J. L., O’Brien E. J. Accessing the discourse representation during reading // Discourse Process. 1998. № 26. P. 131–157.
37. O’Brien E. J., Cook A. E. Coherence threshold and the continuity of processing: The RI–Val model of comprehension // Discourse Process. 2016. № 53. P. 326–338.
38. Richter T. Validation and comprehension of text information: Two sides of the same coin // Discourse Process. 2015. № 52. P. 337–355.
39. Roark B., Bachrach A., Cardenas C., Pallier C. Deriving lexical and syntactic expectation-based measures for psycholinguistic modeling via incremental top-down parsing // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1. Association for Computational Linguistics : Stroudsburg, PA, USA, 2009. Pp. 324–333.
40. Shannon C. E. A mathematical theory of communication // Bell Syst. Tech. J. 1948. № 27. P. 379–423.
41. Sheremetyeva S. On Extracting Multiword NP Terminology for MT // Proceedings of the 13th Conference of European Association for Machine Translation. Barcelona, Spain. P. 205–212.
42. Singer, M. Validation in reading comprehension // Curr. Dir. Psychol. Sci. 2013. № 22. P. 361–366.
43. Smadja F. Retrieving collocations from text. Xtract // Computational Linguistics. 1993. № 7 (4). P. 143–177.
44. Smith N. J., Levy R. Optimal Processing Times in Reading: A Formal Model and Empirical Investigation // Proceedings of the 30th Annual Meeting of the Cognitive Science Society. Cognitive Science Society : Austin, TX, USA, 2008. P. 595–600.
45. Stock J. H., Watson M. W. Regression with a Single Regressor: Hypothesis Tests and Confi dence Intervals // Introduction to Econometrics. 3. Addison-Wesley, 2011. P. 163–164.
46. Tourtouri E. N., Delogu F., Sikos L., Crocker M. W. Rational over-specifi cation in visually-situated comprehension and production // J. Cult. Cogn. Sci. 2019. doi:10.1007/s41809-019-00032-6.
47. Tyrsin A. N., Sokolova I. S. Entropy-probabilistic modeling of Gaussian stochastic systems // Matem. Mod. 2012. Vol. 24. Number 1. P. 88–102.
48. van Berkum J. J. A., Brown C. M., Zwitserlood P., Kooijman V., Hagoort P. Anticipating upcoming words in discourse : Evidence from ERPs and reading times // J. Exp. Psychol. Learn. Mem. Cogn. 2005. № 31. P. 443–467.
49. van Berkum J. J. A., Zwitserlood P., Hagoort P., Brown C. M. When and how do listeners relate a sentence to the wider discourse? Evidence from the N400 eff ect // Cogn. Brain Res. 2003. № 17. P. 701–718.
50. Venhuizen Noortje J., Crocker Matthew W., Brouwer Harm. Semantic Entropy in Language Comprehension // Entropy. 2019. № 21 (12). Р. 1159.
51. Venhuizen N. J., Crocker M. W., Brouwer H. Expectation-based Comprehension: Modeling the Interaction of World Knowledge and Linguistic Experience // Discourse Process. 2019. № 56. P. 229–255. doi:10.1080/0163853X.2018.1448677.
52. Wu S., Bachrach A., Cardenas C., Schuler W. Complexity metrics in an incremental right-corner parser // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics; Association for Computational Linguistics: Stroudsburg, PA, USA, 2010. P. 1189–1198
Опубликована
2023-06-20
Как цитировать
ШЕЛЕСТЮК, Елена Владимировна; ЩЕТИНКИНА, Екатерина Алексеевна. СТОХАСТИЧНОСТЬ И ЭНТРОПИЯ В ЛИНГВИСТИКЕ. ВЕСТНИК ЧЕЛЯБИНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА, [S.l.], n. 2(472), p. 150-165, june 2023. ISSN 2782-4829. Доступно на: <https://journals.csu.ru/index.php/BulletinCSU/article/view/2020>. Дата доступа: 18 apr. 2024

Ключевые слова

стохастичность текста, энтропия текста, перплексия, n-грамма, редукция энтропии, случайность, неопределенность, текстовые категории, интегративность, сюрпризал, информативность