ЦИФРОВАЯ И КОРПУСНАЯ ЛЕКСИКОГРАФИЯ: СОВРЕМЕННЫЕ ПОДХОДЫ И ТЕХНОЛОГИИ

Современная лексикография переживает качественную трансформацию благодаря широкому внедрению цифровых технологий, компьютерной обработки текстов и корпусов языка. На смену исключительно бумажным словарям приходят электронные, динамичные и интерактивные словарные системы, базирующиеся на объективных языковых данных и использующие методы корпусной лингвистики, автоматической обработки текстов и машинного обучения [1, 30]. Цифровая и корпусная лексикография формируют новое направление прикладного языкознания, объединяющее лингвистику, информационные технологии и дидактику [2, 18].

Цифровая лексикография (англ. digital lexicography) – это область лексикографической практики, связанная с разработкой, представлением, распространением и использованием словарей в цифровом формате. Она охватывает как перенос традиционных словарей в электронную среду (e-dictionaries), так и создание новых, изначально цифровых ресурсов.

Основными особенностями цифровой лексикографии являются гипертекстовая структура словарных статей; быстрый поиск и навигация по словарю; мультимодальность, включающая текст, аудио, визуализацию, видео; интерактивность (встроенные упражнения, трекинг прогресса, пользовательские настройки); обновляемость (возможность регулярного пополнения словаря); открытость и гибкость, т.е. интеграция с другими системами (корпусами, переводчиками, Learning Management System, или система управления обучением и др.) [3, 9].

Корпусная лексикография – это направление в лексикографии, использующее языковые корпуса (электронные базы текстов, размеченные по грамматическим, жанровым и другим признакам) как основу для описания словарной информации.

Корпусный подход позволяет описывать реальное, актуальное употребление лексических единиц; определять частотность слов и выражений; выявлять семантические и прагматические закономерности; обнаруживать неологизмы, новые формы и значения; избегать субъективности и интуитивных искажений.

Приведем следующие примеры корпусов: BNC (British National Corpus) – корпус современного британского английского; COCA (Corpus of Contemporary American English) – крупнейший корпус американского английского; русский национальный корпус (РНК) – корпус современного русского языка [4, 193].

Корпусные платформы и поисковые системы: Sketch Engine – анализ слов в контексте, коллокации, Word Sketch; AntConc – частотный анализ, KWIC (keyword in context), кластеризация; NoSketch Engine, TreeTagger, UDPipe – лемматизация, морфологическая разметка, синтаксическая аннотация.

На сегодняшний день выделяются такого рода лексикографические базы и форматы, как: XML и TEI (Text Encoding Initiative) – стандарты представления словарных статей; DML (Dictionary Markup Language) – специализированные метки для словарей; LEXML, OntoLex, Wikidata – структуры для связи лексикографических и онтологических данных.

Одним из ключевых моментов можно назвать автоматизацию и машинное обучение, связанное с обнаружением новых слов с помощью алгоритмов кластеризации; генерация определений на основе нейросетевых моделей (BERT, GPT); автоматическая проверка примеров, синонимии, антонимии и семантической близости [13, 47].

В целом применение цифровых и корпусных технологий в создании словарей различных типов может быть обобщено в следующих принципах:

  1. Толковый словарь предполагает учёт частотности значений, использование примеров из корпуса, а также живых контекстов.
  2. Двуязычный словарь использует сопоставление употребления в корпусах обоих языков.
  3. Словари неологизмов и сленга основываются на автоматическом извлечении новых слов из СМИ и соцсетей.
  4. Фразеологический словарь рассчитан на поиск устойчивых сочетаний и их варьирования.
  5. Учебный словарь помогает в подборе примеров по CEFR, использует визуализацию и озвучку.
  6. Многоязычные и вики-словарные платформы (например, Wiktionary, Glosbe, Reverso Context). Вики-словарные платформы представляют собой пример реализации принципов краудсорсинга в лексикографии. Используя вики-движок, они обеспечивают возможность совместного формирования и редактирования словарных статей широким кругом пользователей. Характерными особенностями вики-словарей являются многоязычность, свободный доступ, постоянное пополнение словарного запаса и включение в структуру не только толковых, но и этимологических, грамматических словарей [5, 129; 12, 203].

Развитие цифровых технологий расширило возможности контрастивной лексикографии.

Параллельные и сопоставительные корпуса позволяют отслеживать эквиваленты в реальных контекстах, анализировать коллокации, регистры, стилистические особенности. Например: OpenSubtitles, InterCorp, Яндекс.Переводчик-корпус.

В то же время автоматизация экстракции эквивалентов предполагает использование алгоритмов машинного обучения, векторных представлений (Word2Vec, BERT), частотного анализа и кластеризации [14, 29].

Ещё один важный момент связан с визуализацией лексико-семантических связей, включающей онтологические графы, ассоциативные сети, семантические карты, которые позволяют строить словари с глубокой внутренней структурой.

Например, способом организации информации, представляющей собой своего рода карту знаний, являются так называемые онтологические графы. Они основаны на логике и состоят из словаря терминов и описаний того, как эти термины связаны друг с другом, отражая свойства и отношения моделируемых объектов.

Широко применяются ассоциативные сети как структура, отражающая связи между понятиями, идеями или лексическими единицами, основанная на их ассоциативных отношениях в человеческом сознании или в информационных системах. Основные характеристики ассоциативных сетей включают узлы (nodes) – элементы сети, которые представляют собой понятия, слова или образы; связи (links) – отношения между узлами, которые отражают ассоциативные связи (например, тематические, семантические, функциональные, причинно-следственные и другие). Они используются для описания семантических полей и структуры словарного запаса языка. Например, в компьютерной лексикографии и семантике рассматриваются как основа для семантических сетей (например, WordNet), где слова связаны синонимическими, гипонимическими и другими отношениями.

Семантические карты – это графические или схемные модели, которые отражают смысловые отношения между словами, понятиями или другими языковыми единицами. Их основная цель – визуализировать структуру значений, показать, как различные понятия соотносятся друг с другом в рамках лексической или когнитивной системы [6, 542].

Основными характеристиками семантических карт являются: 1) Визуальная организация лексики, которая проявляется в том, что понятия и слова представлены в виде узлов, связанных между собой линиями (ребрами), которые указывают на различные типы смысловых связей (синонимия, антонимия, гипонимия и др.); 2) Семантические карты показывают, как лексические единицы группируются по смысловым полям, тематическим группам или концептам, т.е. отражают категориальной структуры; 3) Карты могут отображать как базовые значения слов, так и их переносные значения, метафорические расширения и ассоциативные связи, таким образом, проявляется многоуровневая структура; 4) Используются в лексикографии, лингвокультурологии, психолингвистике, когнитивной лингвистике, обучении иностранным языкам и автоматической обработке текста, что говорит о гибкости их применения.

Например, в лексикографии семантические карты используются для проектирования словарных статей, выявления семантической близости между лексемами. Они применяются в обучении для помощи учащимся в запоминании и структурировании лексического материала. В когнитивной лингвистике такие карты помогают в описании концептуальных полей и ментальных репрезентаций. Что касается компьютерной лингвистики, то они выступают как часть онтологий и семантических сетей для автоматизированной обработки естественного языка.

Приведем примеры связей на семантической карте:

«Животное» → гипероним для «собака», «кошка», «лошадь».

«Собака» ↔ синоним «пёс».

«Собака» → антоним (по культурному восприятию) «кошка».

«Собака» → ассоциируется с «верность», «охрана», «друг».

Таким образом, семантические карты помогают систематизировать и визуализировать сложные лексико-семантические отношения в языке.

Однако следует также отметить, что контрастивная лексикография сталкивается и с рядом трудностей, такими, как: эквивалентность в условиях концептуального несовпадения; многообразие прагматических функций; неоднородность лексических полей в разных языках; учёт социальных и региональных вариаций; проблема интерфейса и пользовательского восприятия в электронных словарях. Что касается перспектив и векторов развития, то на современном этапе наблюдаются следующие тренды: интеркультурная и педагогическая лексикография, предполагающая создание словарей, ориентированных на преподавание иностранных языков, с культурным комментарием, визуализацией, аудиосопровождением [7, 81].

Современное преподавание иностранных языков выходит за пределы традиционного представления о словаре как о текстовом справочнике. В условиях цифровизации образования, межкультурной мобильности и акценте на функциональную грамотность возрастает потребность в инновационных, мультимодальных словарях, ориентированных не только на перевод и толкование, но и на контекстуальное, культурное и фонетическое освоение лексики [8, 63].

Такие словари сочетают культурологический, когнитивный и педагогический подходы, а также реализуют возможности аудио-, визуального и интерактивного сопровождения, тем самым усиливая усвоение и закрепление языкового материала. Инновационное создание учебных словарей базируется на интеграции таких направлений, как когнитивная лингвистика, активизирующая ассоциативные и образные механизмы памяти; лингвокультурология, делающая акцент на отражение национальной картины мира; педагогическая психология, учитывающая индивидуальные стили восприятия (аудиальный, визуальный, кинестетический); цифровая дидактика, использующая интерактивность, мультимодальность, геймификацию; корпусная и прикладная лексикография, опирающиеся на реальные примеры из языка-носителя [16, 357].

Одним из ключевых компонентов инновационного словаря является культурный комментарий, поясняющий, раскрывающий этнокультурную специфику слова, устойчивого выражения или прагматической единицы [9, 24]. Он позволяет избежать фоновых лакун; понять ментальные и поведенческие нормы носителей языка; корректно использовать лексику в межкультурных речевых актах; углубить знания о национальной культуре, отражённой в языке. Например: Siesta (исп.) – послеобеденный отдых. В словарной статье даётся комментарий в странах с жарким климатом (например, Испания, Мексика) сиеста – социально одобряемая практика дневного сна или перерыва в работе, отражающая отношение к телесности, времени и отдыху.

Используется прием визуализации от пиктограммы к семантической карте. Визуализация в учебных словарях – это использование изображений, схем, инфографики и цветового кодирования для усиления восприятия и запоминания. Она активизирует зрительную память и ассоциации; помогает в дискурсивной и прагматической интерпретации; поддерживает начальный и средний уровни владения языком; облегчает усвоение лексических полей и коллокаций. Так, к визуальным средствам относятся иконки и фотографии; семантические карты, сопоставительные таблицы (например, сопоставление британского и американского вариантов употребления слов, скажем: flat (BrE) – apartment (AmE). Наряду с визуальными средствами используется аудиосопровождение, формирующее фонетическую грамотность [11, 65].

Фонетический компонент в инновационном словаре играет роль модели произношения, ориентированной на формирование аудитивной и артикуляционной компетенции. Аудиосопровождение может включать: произношение (в британском, американском, австралийском вариантах); интонационные модели, особенно для фраз и речевых актов; фонетические различия между языками (например, sheet vs. shit); фразы в контексте диалога или монолога (с эмоциональной окраской).

Например:

Word: schedule [ˈʃedjuːl] [ˈskedʒuːl]

Phrase: What’s your schedule for tomorrow?

Аудио: с нейтральной и вежливой интонацией.

Инновационная учебная словарная статья может включать: компонент и его описание, лемму, т.е. слово в базовой форме, грамматическую информацию (например, часть речи, формы, употребление в предложении, определение (простое и адаптированное), перевод(ы) с указанием стилистики и прагматики, примеры, аутентичные контексты, аудиофайл, предполагающий правильное произношение с возможностью прослушивания, изображение (например, иллюстрация предмета, действия, метафоры), культурный комментарий, содержащий объяснение этнографических или социокультурных реалий, коллокации / идиомы - типичные сочетания слов, интерактив (упражнение, игра, запись своего голоса, перетаскивание слов) [10, 102; 15, 338].

Рассмотрим примеры реализованных проектов. Ср.: Oxford Learner’s Dictionaries Online включает аудио, культурные пометки, визуальные пояснения; Macmillan Dictionary + Sound – озвучка и иллюстрации, примеры фраз; BBC Learning English Word on the Street представляет собой словарь с видео, примерами и культурными пояснениями; WordUp App – визуальная карта значений, видео из YouTube, трекер прогресса; Quizlet + Picture Dictionary – возможность создавать карточки с изображениями и озвучкой.

Таким образом, инновационные учебные словари становятся интерактивными, адаптивными и мультимодальными инструментами, которые не только передают знания о языке, но и формируют языковую личность, способную к эффективной межкультурной коммуникации. Их создание требует участия лексикографов, педагогов, программистов, носителей языка и дизайнеров интерфейсов. Успешная реализация таких словарей делает обучение языку гибким, глубинным и мотивирующим.

 

 

Литература:

 

  1. Bergenholtz H., & Tarp, S. (Eds.). Cultural Lexicography: Between Language, Culture and Cognition. Berlin: De Gruyter, 2020. – 303 p.
  2. Бушуй Т. Языкознание: прошлое, настоящее и будущее // Т.: Янги аср авлоди. – 2020. – 184 с.
  3. Бушуй Т.А. Neolexicography: Problems and Prospectives // Международный журнал языка, образования, перевода. – 2022. – Т. 3. – №. 3. – С. 7-15.
  4. Фалеева А.В. Отражение лексико-семантических особенностей скрытого смысла коллоквиализмов-зоонимов в лексикографических источниках // Вестник Челябинского государственного университета. – 2021. – №. 9 (455). – С. 192-199.
  5. Фалеева А.В. Тематическая дифференциация коллоквиализмов с имплицитным значением в лексикографических источниках // Вестник Челябинского государственного университета. – 2022. – №. 7 (465). – С. 128-136.
  6. Фалеева А.В. Лексико-семантические и деривационные особенности коллоквиальных акронимов и бэкронимов в современных печатных и электронных лексикографических источниках // Miasto Przyszłości. – 2023. – Т. 35. – С. 540-543.
  7. Bushuy T. Contextual actualization of phraseology in English expressions // Scientific Enquiry in the Contemporary World: Theoretical Basiсs and Innovative Approach. – 2015. – С. 81.
  8. Bushuy T.A. The Emergence of Language Multitude // Scientific reports of Bukhara State University. – 2018. – Т. 1. – №. 3. – С. 62-67.
  9. Faleyeva A.V. Derivational peculiarities of colloquial words in modern English dictionaries // Язык и культура. – 2021. – С. 99-104.
  10. Faleeva A.V. Investigation of the Colloquial Formation of Modern English Language // Международный журнал языка, образования, перевода. – 2022. – Т. 3. – №. 2. – C. 59-67.
  11. Faleeva A.V. Grammatical, Semantic and Structural Features of English Colloquial Words and Expressions // International Journal of Language Learning and Applied Linguistics. – 2023. – Т. 2. – №. 5. – С. 202-206.
  12. Faleeva A.V. Theoretical Interpretation of American Colloquialistics in Lexicographical Sources // Ilm-fan yangiliklari konferensiyasi. – 2023. – Т. 1. – №. 1. – P. 45-48.
  13. Faleeva A. Theoretical and Practical Research of the Formation of Colloquialistics of the English Language in Level Interpretation // Международный журнал языка, образования, перевода. – 2023. – Т. 4. – №. 5. – C. 28-36.

 

Bushuy T. Raqamli va korpus lug‘atchiligi: zamonaviy yondashuvlar va texnologiyalar. Maqolada raqamli va korpus leksikografiyasini ishlab chiqishda qo‘llanilayotgan eng yangi yondashuvlar hamda texnologiyalar, xorijiy tillarni o‘qitish uchun mo‘ljallangan o‘quv lug‘atlarini yaratishdagi zamonaviy tendensiyalar tahlil qilinadi. E’tibor madaniy komponentni integratsiya qilishga, vizual va audio vositalardan, shuningdek, interaktiv texnologiyalardan foydalanishga qaratilgan.

 

Bushuy T. Digital and corpus lexicography: contemporary approaches and technologies. The article examines the latest approaches and technologies in the development of digital and corpus lexicography, as well as current trends in the creation of educational dictionaries intended for foreign language teaching. The focus is placed on the integration of the cultural component, the use of visual and audio tools, and the implementation of interactive technologies.

 

 

 

 

Xorijiy filologiya jurnali tahrir ha'yati