ингвистика
Лингвистика как наука о закономерностях строения и развития естественного языка. Понятие теоретической и прикладной лингвистики. Соотношение прикладной и компьютерной лингвистики. Язык как знаковая система. Понятие естественного и искусственного языка. Виды искусственных языков. Изучение возможностей применения информационных технологий в лингвистике предполагает знание основных понятий соответствующей области знания, среди которых можно выделить понятия из сферы лингвистики (язык, лингвистика, компьютерная лингвистика и т.п.) и информатики (информация, алгоритм, модель и др.). Знакомство с этими понятиями начнем с лингвистических терминов, характеризующих непосредственную профессиональную область деятельности лингвистов, преподавателей иностранных языков и переводчиков. Лингвистика (или языкознание) традиционно понимается как наука о естественном человеческом языке [9, 28]. Лингвистов занимают вопросы строения языка (выделение в нем фонетического, лексического, грамматического уровня и уровня текста), социального варьирования языка, вопросы порождения и понимания языковых высказываний, принципы функционирования языка в обществах разных типов, происхождения и развития языка и другие его аспекты[13, 618—622]. В зависимости от изучаемого аспекта языка, национальной традиции и научной методологии выделяются различные разделы лингвистики, например структурная лингвистика, социолингвистика, психолингвистика и т.п. Чтобы определить раздел лингвистики, наиболее тесно связанный с использованием информационных технологий, целесообразно обратиться к разграничению теоретической и прикладной лингвистики. Теоретическая (или фундаментальная) лингвистика — это область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей. Эта область лингвистики призвана ответить на вопрос «Каков язык?» [37,214—215]. Прикладная лингвистика развивается с конца 20-х годов XX в. и является областью языкознания, связанной с разработкой методов решения практических задач использования языка [13, 397]. Прикладная лингвистика отвечает на вопрос «Как лучше использовать язык?». Следует отметить, что в России и за рубежом сложились разные интерпретации понятия прикладной лингвистики. Если за рубежом в 1930—1940-е годы под прикладной лингвистикой {Applied Linguistics) прежде всего понимается процесс обучения иностранному языку, методика его преподавания, особенности описания грамматики для учебных целей, то в России начиная с 1950-х годов, прикладная лингвистика ассоциируется с компьютерными технологиями и автоматическими системами обработки информации [4, 6]. В связи с этим в русскоязычной научной традиции прикладная лингвистика нередко рассматривается как синоним компьютерной / вычислительной / автоматической/ инженерной лингвистики. На современном этапе развития науки в рамках прикладной лингвистики выделяется несколько направлений по оптимизации ипользования языка, которые объединяются исследователями в две большие группы: традиционные («вечные») и новые. К традиционным направлениям и соответствующим задачам прикладной лингвистики относятся: • создание и совершенствование письменностей; • создание систем транскрипции устной речи; • создание систем транслитерации иноязычных слов; • создание систем стенографии; • создание систем письма для слепых; • упорядочение, унификация и стандартизация научно-технической терминологии; • изучение процессов и создание правил образования названий новых изделий, товаров, химических веществ; • разработка методов адекватного преобразования текстов в иноязычную форму (перевода); • совершенствование методики преподавания языков и др. [13,397]. Новыми задачами прикладной лингвистики считаются: • разработка лингвистических основ машинного перевода; • автоматическое индексирование и аннотирование документов; • автоматический анализ текстов; • автоматический синтез текстов; • создание словарей-тезаурусов для автоматического поиска информации и др. [ср. 36]. Именно те области прикладной лингвистики, которые связаны с привлечением компьютеров для решения практических задач использования языка, являются предметом компьютерной лингвистики, оформившейся в 1960-е годы как особое научное направление. Компьютерную лингвистику можно определить как область использования компьютерных инструментов — программ, технологий организации и обработки данных — для моделирования функционирования языка в тех или иных условиях, а также сферу применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах [4, 13]. В связи с тем, что язык представляет собой весьма сложное образование, в компьютерной лингвистике сложились и развиваются различные направления, примерно сопоставимые с отдельными уровнями языка, с процессами порождения и восприятия языковых сообщений или другими видами человеческой деятельности, связанной с языком. Соответственно, к направлениям компьютерной лингвистики относятся: • автоматический анализ текстов; • автоматический синтез текстов; • создание и поддержка автоматических словарей; • создание автоматизированных информационно-поисковых систем; • машинный перевод; • создание автоматических систем обучения языку; • автоматическая атрибуция и дешифровка анонимных текстов; • создание лингвистических баз данных; • разработка программных инструментов для решения задач теоретической и прикладной лингвистики и т.д. [20; 53 и др.]. Лингвистика в целом и компьютерная лингвистика в частности имеют дело с языками различного типа и их отдельными уровнями. Язык в наиболее общем виде определяется как знаковая система, используемая для общения в некотором социуме [13, 604; 29, 5]. Различают естественные и искусственные языки. Естественный язык — это исторически сложившаяся и используемая в определенной этнической группе или национальном государстве знаковая система. Примерами естественных языков выступают русский и английский (принадлежащие к индоевропейской языковой семье) или финский и эстонский (принадлежащие к финно-угорской языковой семье). Искусственные языки представляют собой знаковые системы, искусственно создаваемые в тех областях, где применение естественных языков менее эффективно или невозможно. Среди искусственных выделяются неспециализированные (или международные) языки (эсперанто, волапюк и др.) и специализированные языки. К последним относятся языки науки (математики, логики, химии и т.д., создание которых началось в XVI в.) и языки человеко-машинного общения (получающие распространение в специальных областях человеческой деятельности, связанной с облегчением диалога человека и компьютера, начиная с 1940-х годов) [13, 201—202]. Примеры языков человеко-машинного общения простираются от простейших систем символического кодирования (ассемблеров) до специализированных языков программирования (С++, Java, Python, ErLang и др.). К 1980-м годам в мире насчитывалось около 500 языков программирования [13, 202]. В настоящее время активно используется примерно столько же, хотя общее количество известных языков программирования достигает нескольких тысяч [55].Эти факты свидетельствуют об остроте проблемы человеко-машинного общения и о множестве подходов к ее решению. Подводя итог разделу, констатируем, что лингвистикой следует считать науку о закономерностях происхождения, строения и функционирования естественного человеческого языка. Предметом лингвистики и компьютерной лингвистики как ее особого раздела выступает язык — знаковая система, используемая с различными целями.
нформация.
нформационные технологи
Одним из основных назначений языка является его использование для передачи информации между людьми. Поэтому, говоря о языке, невозможно обойти вниманием и понятие информации. Информация в обыденном понимании трактуется как сведения о положении дел в окружающем мире, его свойствах, протекающих в нем процессах и т.п. [31]. В специальных науках, изучающих информацию, это понятие определяется несколько иначе: как последовательность сигналов или символов некоторого алфавита, кодирующая некоторое сообщение без учета смыслового содержания этого сообщения (в теории передачи информации) или как содержание, которое получено из внешнего мира и позволяет адекватно реагировать живому организму (или технической системе) на окружающую среду (в кибернетике) [16, 11—12]. Обобщая различные определения информации, можно предложить следующую трактовку этого понятия: информация — это сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для регулирования своего поведения в окружающей среде. Роль информации в современном обществе исключительно велика. Информация, кодируемая с помощью языка, превращается в знания; знания же передаются от поколения к поколению, тем самым обеспечивая преемственность общественных устоев. Информация может кодироваться вербально или невербально. Различие способов кодирования информации (аудитивный, тактильный, визуальный, густический и т.д.) обусловливает множество способов ее представления: • тексты; • рисунки, чертежи, фотографии; • световые или звуковые сигналы; • электрические и нервные импульсы; • жесты и мимика; • запахи и вкусовые ощущения; • хромосомы, посредством которых передаются по наследству признаки и свойства организмов, и т.д. Способов представления информации, как показывают примеры, достаточно много. Но поскольку человек может воспринимать информацию лишь с помощью собственных органов чувств, целесообразно классифицировать виды информации именно на этом основании. По тому, какими органами чувств воспринимаются и какой сигнальной системой закодированы сведения об окружающем мире, можно выделить звуковую, вкусовую, тактильную, визуально-образную и визуально-символическую информацию. Именно последние два вида информации являются наиболее значимыми для современного человека, при этом если в XX в. человек имел дело в основном с визуально-образной, то в XXI в. наиболее значимой становится визуально-символическая информация. В лингвистике символами считаются в первую очередь слова, поскольку именно слово является минимальной единицей, способной обозначать предметы и явления окружающего мира. В информатике символами считаются главным образом буквы, знаки препинания, цифры и другие знаки печатного текста, а также звуковые знаки — фонемы — устного текста, являющиеся составляющими алфавитов и фонетических систем различных естественных и искусственных языков. Эти символы складываются в слова и предложения, кодирующие передаваемую информацию. Процессы, связанные с определенными операциями над информацией, называются информационными процессами. В настоящее время над информацией можно производить следующие операции: создавать, принимать, комбинировать, хранить, передавать, копировать, искать, воспринимать, формализовать, измерять, использовать делить на частицу, прощать, разрушать, обрабатывать, собирать, распространять, преобразовывать. В связи с постоянным увеличением количества используемой людьми информации на определенном этапе развития общества потребовалось привлечение специальных технических средств для ее обработки и хранения. Принципиальные изменения в способах фиксации и передачи информации, связанные с изобретением новых технических средств получили название информационных революций. Исследователями выделяются три информационные революции [28, 404—405]: 1) ок. 3000 лет до н.э. — изобретение письменности (шумерская клинопись): информация может накапливаться; 2) 1453 г. — изобретение книгопечатания: информация становится массово доступной; 3) начало 1970-х годов — создание персональных ЭВМ и телекоммуникационных сетей: информация может автоматически обрабатываться и доставляться в электронном виде с высокой скоростью. Третья информационная революция в значительной степени стимулировалась тем, что в середине XX в. появляются специальные науки, изучающие информацию: информатика и кибернетика. Информатика — это наука о накоплении, обработке и передаче информации с помощью ЭВМ. Наука об управлении, связи и переработке информации называется кибернетикой.Именно в рамках теории информации (математической теории связи) для иллюстрации информационного обмена, осуществляемого с помощью технических средств, К. Шенноном и У. Уивером была предложена наглядная модель (рис. 1).
Особо значимым для информационных технологий представляется указание в данной модели на кодирующее и декодирующее устройство, поскольку одной из важных задач информатики является перевод информации, закодированной в «человеческих» символах, в информацию, понятную компьютерам, и наоборот. Компьютеры в информационном обмене становятся средством кодирования, обработки, хранения и передачи больших массивов символьной информации. Совокупность законов, методов и средств получения, хранения, передачи, распространения и преобразования информации с помощью компьютеров получило обозначение «информационные технологии». При сужении этого понятия для его использования в особой профессиональной сфере (лингвистика) получаем сочетание «информационные технологии в лингвистике», понимаемое как совокупность законов, методов и средств получения, хранения, передачи, распространения и преобразования информации о языке и законах его функционирования с помощью компьютеров [20, 8]. Одной из задач соответствующей области знания является сравнение способов кодирования информации человеком и компьютером. Под кодированием в целом понимается процесс представления информации в виде последовательности условных обозначений. Иными словами, кодирование — это сопоставление объектов и отношений между ними с символами или словами какого-либо языка В процессе кодирования соотношение слова (символа) и его значения обычно называется семантикой, правила, выражающие общие синтаксические свойства слов и групп слов, позволяющие производить и/или описывать правильные предложения языка — грамматикой [11, 98; 51, 19]. О способах кодирования информации человеком говорилось выше. Компьютер может обрабатывать все известные виды информации, включая: • числовую, • буквенную (вербальную), • графическую, • звуковую, • видеоинформацию. Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1). Так, числовая информация используемой человеком десятичной системы счисления предстает в ЭВМ в виде следующих сочетаний символов 0 и 1: [16, 39—40]. 0 — 0 4 — 100 8— 1000 1 — 1 5 — 101 9 — 1001 2 — 10 6 — ПО 10—1010 3 — 11 7 — 111 Для кодирования графической информации обычно используется 2 способа — представление рисунка в виде растрового или векторного изображения. Растровое изображение формируется из определенного количества строк, содержащих определенное количество точек (пикселей). Векторное изображение — графический объект, состоящий из элементарных графических объектов, например отрезков и дуг. Положение этих элементарных объектов определяется координатами точек и длиной радиуса. Кодирование звуковой информации опирается на материальные характеристики этой информации. Известно, что звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой звучания. Чем больше амплитуда сигнала, тем он громче, чем больше частота сигнала, тем выше тон. Визуально представить звуковую волну помогает фонограмма, т.е. зафиксированные специальными приборами и отражаемые, к примеру, на экране монитора колебания звуковой волны (рис. 2).
При кодировании видео к звуковой информации добавляются визуальные изображения, представляемые в виде множества отдельных кадров, плавно переходящих один в другой на временной оси. Для компьютерной обработки лингвистических данных важно иметь представление о компьютерной лингвистической модели и об алгоритме решения лингвистических задач. Моделью обычно считают материальный или идеальный образ некоторой совокупности предметов или явлений, заменяющий реальные предметы и явления и включающий только их наиболее существенные признаки [43, 38]. Примерами материальных моделей выступают рисунки или трехмерные изображения молекул в химии, солнечной системы в астрономии, организма человека в анатомии. Лингвистические модели являются большей частью идеальными конструктами, позволяющими раскрыть особенности строения и функционирования языка, производство и восприятие речи и текста [20, 14]. Простейшие лингвистические модели иллюстрируют строение слова из фонем, предложения из именных и глагольных групп, текста из единиц сюжета. Так, базовыми элементами текста в сюжетной грамматике выступают экспозиция, событие и эпизод [4,27]. Сложные лингвистические модели включают большее количество составляющих различных уровней и отличаются комплексными целями (ср. параграф 2.4 «Автоматический анализ и синтез текста»). Построение компьютерных лингвистических моделей предполагает выполнение некоторой последовательности действий. Формализованное описание такой последовательности действий, приводящей к решению поставленной задачи, называется алгоритмом [43, 40]. Алгоритмы могут быть записаны в виде вербальных инструкций, блок-схем, таблиц или на языках программирования. Примеры алгоритмов различного рода см. в работе [20, 18—19, 36—37]. С 1970-х годов различные подходы к моделированию человеческой деятельности в различных сферах и предметных областях интегрируются в усилиях по созданию искусственного интеллекта. Под искусственным интеллектом (англ. Artificial Intelligence) понимается междисциплинарная область исследований, связанная с созданием сложных человеко-машинных и робототехнических систем [13, 14]. Подводя итог содержанию данного раздела, констатируем: информация, являющаяся непременным условием существования человеческого общества, представляет собой сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для адекватной реакции на изменения в окружающей среде. Компьютерные инструменты получения, хранения, передачи, распространения и преобразования информации, а также соответствующие законы и методы получили обозначение информационных технологий. Если с помощью компьютеров мы получаем, храним, передаем и распространяем любую информацию, касающуюся языка и законов его функционирования, мы имеем дело с информационными технологиями в лингвистике
ппаратное и программное обеспечение информационных технологий в лингвистике
Компьютер и периферийные устройства как аппаратная основа информационных технологий. Системное и прикладное программное обеспечение. Лингвистические ресурсы (lingware). Автоматизированное рабочее место лингвиста. Для выполнения объемных расчетов над лингвистическими данными, а также для лингвистического моделирования удобно использовать электронные вычислительные машины (или компьютеры). Компьютер — это электронное устройство, служащее для автоматического создания, обработки, передачи и воспроизводства информации по созданным человеком алгоритмам (программам), написанным на понятном для машины языке [43, 42; 15, 22]. Как следует из приведенного определения, в использовании компьютеров сочетается аппаратное {hardware) и программное обеспечение {software) информационных технологий. К аппаратному обеспечению относится сам компьютер (стационарный или переносной), а также периферийные устройства, служащие для ввода/вывода информации в компьютер пользователем (клавиатура, мышь, монитор, принтер и т.д.) или для соединения компьютера с другими устройствами (например, модем). Программное обеспечение — это компьютерные программы, представляющие собой последовательность написанных на машинном языке команд, служащие для управления аппаратными средствами или для выполнения различных операций над информацией, и соответствующая документация. В зависимости от назначения программных средств различают системное и прикладное программное обеспечение. Системные программы служат управлению работой аппаратных средств и включают операционные системы, утилиты, драйверы и некоторые другие виды программ. Прикладные программы предназначены для конечного пользователя и позволяют ему выполнять различные операции над информацией: создавать и обрабатывать текст (текстовые редакторы), обрабатывать графические изображения (графические редакторы), работать над звуковой и видеоинформацией (мультимедийные программы), создавать электронные таблицы для обработки статистических данных (электронные таблицы) и т.д. Для лингвиста особенно полезными являются такие виды прикладных программ, как электронные переводчики и словари, а также мультимедийные обучающие программы. Наряду с аппаратным и программным обеспечением (ПО) информационных технологий некоторые исследователи используют также понятие lingware (или linguware), которым обозначаются все лингвистические компьютерные ресурсы (грамматические справочники, словари, энциклопедии, лингвистические базы данных и т.п.) [ср. 8, 27, 31; 59]. Совокупность аппаратных, программных и лингвистических средств, необходимых для автоматической обработки лингвистических данных, обозначим понятием автоматическое рабочее место (АРМ) лингвиста [22,258]. АРМ лингвиста будет включать сам компьютер, операционное и базовое прикладное ПО, а также всевозможные лингвистические компьютерные ресурсы, касающиеся родного и изучаемых иностранных языков. В зависимости от специализации АРМ лингвиста может дополняться прикладными программами и лингвистическими ресурсами, связанными с переводом или обучением иностранному языку. Задачей обучающихся является постоянная актуализация своего АРМ, включающая поддержание современного состояния аппаратного и программного обеспечения, а также постоянное пополнение собственной лингвистической ресурсной базы, т.е. поиск, сохранение, приобретение или создание лингвистических справочников, словарей и баз данных.
3. ОБЛАСТИ ПРИМЕНЕНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЛИНГВИСТИКЕ