Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


ппаратное и программное обеспечение информационных технологий в лингвистике




ингвистика

 

Лингвистика как наука о закономерностях строения и развития естественного языка. Понятие теоретической и прикладной лингвистики. Соотношение прикладной и компьютерной лингвистики. Язык как знаковая система. Понятие естественного и искусственного языка. Виды искусственных языков. Изучение возможностей применения информационных технологий в лингвистике предполагает знание основных понятий соответствующей области знания, среди которых можно выделить понятия из сферы лингвистики (язык, лингвистика, компьютерная лингвистика и т.п.) и информатики (информация, алгоритм, модель и др.). Знакомство с этими понятиями начнем с лингвистических терминов, характеризующих непосредственную профессиональную область деятельности лингвистов, преподавателей иностранных языков и переводчиков. Лингвистика (или языкознание) традиционно понимается как наука о естественном человеческом языке [9, 28]. Лингвистов занимают вопросы строения языка (выделение в нем фонетического, лексического, грамматического уровня и уровня текста), социального варьирования языка, вопросы порождения и понимания языковых высказываний, принципы функционирования языка в обществах разных типов, происхождения и развития языка и другие его аспекты[13, 618—622]. В зависимости от изучаемого аспекта языка, национальной традиции и научной методологии выделяются различные разделы лингвистики, например структурная лингвистика, социолингвистика, психолингвистика и т.п. Чтобы определить раздел лингвистики, наиболее тесно связанный с использованием информационных технологий, целесообразно обратиться к разграничению теоретической и прикладной лингвистики. Теоретическая (или фундаментальная) лингвистика — это область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей. Эта область лингвистики призвана ответить на вопрос «Каков язык?» [37,214—215]. Прикладная лингвистика развивается с конца 20-х годов XX в. и является областью языкознания, связанной с разработкой методов решения практических задач использования языка [13, 397]. Прикладная лингвистика отвечает на вопрос «Как лучше использовать язык?». Следует отметить, что в России и за рубежом сложились разные интерпретации понятия прикладной лингвистики. Если за рубежом в 1930—1940-е годы под прикладной лингвистикой {Applied Linguistics) прежде всего понимается процесс обучения иностранному языку, методика его преподавания, особенности описания грамматики для учебных целей, то в России начиная с 1950-х годов, прикладная лингвистика ассоциируется с компьютерными технологиями и автоматическими системами обработки информации [4, 6]. В связи с этим в русскоязычной научной традиции прикладная лингвистика нередко рассматривается как синоним компьютерной / вычислительной / автоматической/ инженерной лингвистики. На современном этапе развития науки в рамках прикладной лингвистики выделяется несколько направлений по оптимизации ипользования языка, которые объединяются исследователями в две большие группы: традиционные («вечные») и новые. К традиционным направлениям и соответствующим задачам прикладной лингвистики относятся: • создание и совершенствование письменностей; • создание систем транскрипции устной речи; • создание систем транслитерации иноязычных слов; • создание систем стенографии; • создание систем письма для слепых; • упорядочение, унификация и стандартизация научно-технической терминологии; • изучение процессов и создание правил образования названий новых изделий, товаров, химических веществ; • разработка методов адекватного преобразования текстов в иноязычную форму (перевода); • совершенствование методики преподавания языков и др. [13,397]. Новыми задачами прикладной лингвистики считаются: • разработка лингвистических основ машинного перевода; • автоматическое индексирование и аннотирование документов; • автоматический анализ текстов; • автоматический синтез текстов; • создание словарей-тезаурусов для автоматического поиска информации и др. [ср. 36]. Именно те области прикладной лингвистики, которые связаны с привлечением компьютеров для решения практических задач использования языка, являются предметом компьютерной лингвистики, оформившейся в 1960-е годы как особое научное направление. Компьютерную лингвистику можно определить как область использования компьютерных инструментов — программ, технологий организации и обработки данных — для моделирования функционирования языка в тех или иных условиях, а также сферу применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах [4, 13]. В связи с тем, что язык представляет собой весьма сложное образование, в компьютерной лингвистике сложились и развиваются различные направления, примерно сопоставимые с отдельными уровнями языка, с процессами порождения и восприятия языковых сообщений или другими видами человеческой деятельности, связанной с языком. Соответственно, к направлениям компьютерной лингвистики относятся: • автоматический анализ текстов; • автоматический синтез текстов; • создание и поддержка автоматических словарей; • создание автоматизированных информационно-поисковых систем; • машинный перевод; • создание автоматических систем обучения языку; • автоматическая атрибуция и дешифровка анонимных текстов; • создание лингвистических баз данных; • разработка программных инструментов для решения задач теоретической и прикладной лингвистики и т.д. [20; 53 и др.]. Лингвистика в целом и компьютерная лингвистика в частности имеют дело с языками различного типа и их отдельными уровнями. Язык в наиболее общем виде определяется как знаковая система, используемая для общения в некотором социуме [13, 604; 29, 5]. Различают естественные и искусственные языки. Естественный язык — это исторически сложившаяся и используемая в определенной этнической группе или национальном государстве знаковая система. Примерами естественных языков выступают русский и английский (принадлежащие к индоевропейской языковой семье) или финский и эстонский (принадлежащие к финно-угорской языковой семье). Искусственные языки представляют собой знаковые системы, искусственно создаваемые в тех областях, где применение естественных языков менее эффективно или невозможно. Среди искусственных выделяются неспециализированные (или международные) языки (эсперанто, волапюк и др.) и специализированные языки. К последним относятся языки науки (математики, логики, химии и т.д., создание которых началось в XVI в.) и языки человеко-машинного общения (получающие распространение в специальных областях человеческой деятельности, связанной с облегчением диалога человека и компьютера, начиная с 1940-х годов) [13, 201—202]. Примеры языков человеко-машинного общения простираются от простейших систем символического кодирования (ассемблеров) до специализированных языков программирования (С++, Java, Python, ErLang и др.). К 1980-м годам в мире насчитывалось около 500 языков программирования [13, 202]. В настоящее время активно используется примерно столько же, хотя общее количество известных языков программирования достигает нескольких тысяч [55].Эти факты свидетельствуют об остроте проблемы человеко-машинного общения и о множестве подходов к ее решению. Подводя итог разделу, констатируем, что лингвистикой следует считать науку о закономерностях происхождения, строения и функционирования естественного человеческого языка. Предметом лингвистики и компьютерной лингвистики как ее особого раздела выступает язык — знаковая система, используемая с различными целями.

 

 

нформация.

нформационные технологи

 

Одним из основных назначений языка является его использование для передачи информации между людьми. Поэтому, говоря о языке, невозможно обойти вниманием и понятие информации. Информация в обыденном понимании трактуется как сведения о положении дел в окружающем мире, его свойствах, протекающих в нем процессах и т.п. [31]. В специальных науках, изучающих информацию, это понятие определяется несколько иначе: как последовательность сигналов или символов некоторого алфавита, кодирующая некоторое сообщение без учета смыслового содержания этого сообщения (в теории передачи информации) или как содержание, которое получено из внешнего мира и позволяет адекватно реагировать живому организму (или технической системе) на окружающую среду (в кибернетике) [16, 11—12]. Обобщая различные определения информации, можно предложить следующую трактовку этого понятия: информация — это сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для регулирования своего поведения в окружающей среде. Роль информации в современном обществе исключительно велика. Информация, кодируемая с помощью языка, превращается в знания; знания же передаются от поколения к поколению, тем самым обеспечивая преемственность общественных устоев. Информация может кодироваться вербально или невербально. Различие способов кодирования информации (аудитивный, тактильный, визуальный, густический и т.д.) обусловливает множество способов ее представления: • тексты; • рисунки, чертежи, фотографии; • световые или звуковые сигналы; • электрические и нервные импульсы; • жесты и мимика; • запахи и вкусовые ощущения; • хромосомы, посредством которых передаются по наследству признаки и свойства организмов, и т.д. Способов представления информации, как показывают примеры, достаточно много. Но поскольку человек может воспринимать информацию лишь с помощью собственных органов чувств, целесообразно классифицировать виды информации именно на этом основании. По тому, какими органами чувств воспринимаются и какой сигнальной системой закодированы сведения об окружающем мире, можно выделить звуковую, вкусовую, тактильную, визуально-образную и визуально-символическую информацию. Именно последние два вида информации являются наиболее значимыми для современного человека, при этом если в XX в. человек имел дело в основном с визуально-образной, то в XXI в. наиболее значимой становится визуально-символическая информация. В лингвистике символами считаются в первую очередь слова, поскольку именно слово является минимальной единицей, способной обозначать предметы и явления окружающего мира. В информатике символами считаются главным образом буквы, знаки препинания, цифры и другие знаки печатного текста, а также звуковые знаки — фонемы — устного текста, являющиеся составляющими алфавитов и фонетических систем различных естественных и искусственных языков. Эти символы складываются в слова и предложения, кодирующие передаваемую информацию. Процессы, связанные с определенными операциями над информацией, называются информационными процессами. В настоящее время над информацией можно производить следующие операции: создавать, принимать, комбинировать, хранить, передавать, копировать, искать, воспринимать, формализовать, измерять, использовать делить на частицу, прощать, разрушать, обрабатывать, собирать, распространять, преобразовывать. В связи с постоянным увеличением количества используемой людьми информации на определенном этапе развития общества потребовалось привлечение специальных технических средств для ее обработки и хранения. Принципиальные изменения в способах фиксации и передачи информации, связанные с изобретением новых технических средств получили название информационных революций. Исследователями выделяются три информационные революции [28, 404—405]: 1) ок. 3000 лет до н.э. — изобретение письменности (шумерская клинопись): информация может накапливаться; 2) 1453 г. — изобретение книгопечатания: информация становится массово доступной; 3) начало 1970-х годов — создание персональных ЭВМ и телекоммуникационных сетей: информация может автоматически обрабатываться и доставляться в электронном виде с высокой скоростью. Третья информационная революция в значительной степени стимулировалась тем, что в середине XX в. появляются специальные науки, изучающие информацию: информатика и кибернетика. Информатика — это наука о накоплении, обработке и передаче информации с помощью ЭВМ. Наука об управлении, связи и переработке информации называется кибернетикой.Именно в рамках теории информации (математической теории связи) для иллюстрации информационного обмена, осуществляемого с помощью технических средств, К. Шенноном и У. Уивером была предложена наглядная модель (рис. 1).

 

Особо значимым для информационных технологий представляется указание в данной модели на кодирующее и декодирующее устройство, поскольку одной из важных задач информатики является перевод информации, закодированной в «человеческих» символах, в информацию, понятную компьютерам, и наоборот. Компьютеры в информационном обмене становятся средством кодирования, обработки, хранения и передачи больших массивов символьной информации. Совокупность законов, методов и средств получения, хранения, передачи, распространения и преобразования информации с помощью компьютеров получило обозначение «информационные технологии». При сужении этого понятия для его использования в особой профессиональной сфере (лингвистика) получаем сочетание «информационные технологии в лингвистике», понимаемое как совокупность законов, методов и средств получения, хранения, передачи, распространения и преобразования информации о языке и законах его функционирования с помощью компьютеров [20, 8]. Одной из задач соответствующей области знания является сравнение способов кодирования информации человеком и компьютером. Под кодированием в целом понимается процесс представления информации в виде последовательности условных обозначений. Иными словами, кодирование — это сопоставление объектов и отношений между ними с символами или словами какого-либо языка В процессе кодирования соотношение слова (символа) и его значения обычно называется семантикой, правила, выражающие общие синтаксические свойства слов и групп слов, позволяющие производить и/или описывать правильные предложения языка — грамматикой [11, 98; 51, 19]. О способах кодирования информации человеком говорилось выше. Компьютер может обрабатывать все известные виды информации, включая: • числовую, • буквенную (вербальную), • графическую, • звуковую, • видеоинформацию. Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1). Так, числовая информация используемой человеком десятичной системы счисления предстает в ЭВМ в виде следующих сочетаний символов 0 и 1: [16, 39—40]. 0 — 0 4 — 100 8— 1000 1 — 1 5 — 101 9 — 1001 2 — 10 6 — ПО 10—1010 3 — 11 7 — 111 Для кодирования графической информации обычно используется 2 способа — представление рисунка в виде растрового или векторного изображения. Растровое изображение формируется из определенного количества строк, содержащих определенное количество точек (пикселей). Векторное изображение — графический объект, состоящий из элементарных графических объектов, например отрезков и дуг. Положение этих элементарных объектов определяется координатами точек и длиной радиуса. Кодирование звуковой информации опирается на материальные характеристики этой информации. Известно, что звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой звучания. Чем больше амплитуда сигнала, тем он громче, чем больше частота сигнала, тем выше тон. Визуально представить звуковую волну помогает фонограмма, т.е. зафиксированные специальными приборами и отражаемые, к примеру, на экране монитора колебания звуковой волны (рис. 2).

При кодировании видео к звуковой информации добавляются визуальные изображения, представляемые в виде множества отдельных кадров, плавно переходящих один в другой на временной оси. Для компьютерной обработки лингвистических данных важно иметь представление о компьютерной лингвистической модели и об алгоритме решения лингвистических задач. Моделью обычно считают материальный или идеальный образ некоторой совокупности предметов или явлений, заменяющий реальные предметы и явления и включающий только их наиболее существенные признаки [43, 38]. Примерами материальных моделей выступают рисунки или трехмерные изображения молекул в химии, солнечной системы в астрономии, организма человека в анатомии. Лингвистические модели являются большей частью идеальными конструктами, позволяющими раскрыть особенности строения и функционирования языка, производство и восприятие речи и текста [20, 14]. Простейшие лингвистические модели иллюстрируют строение слова из фонем, предложения из именных и глагольных групп, текста из единиц сюжета. Так, базовыми элементами текста в сюжетной грамматике выступают экспозиция, событие и эпизод [4,27]. Сложные лингвистические модели включают большее количество составляющих различных уровней и отличаются комплексными целями (ср. параграф 2.4 «Автоматический анализ и синтез текста»). Построение компьютерных лингвистических моделей предполагает выполнение некоторой последовательности действий. Формализованное описание такой последовательности действий, приводящей к решению поставленной задачи, называется алгоритмом [43, 40]. Алгоритмы могут быть записаны в виде вербальных инструкций, блок-схем, таблиц или на языках программирования. Примеры алгоритмов различного рода см. в работе [20, 18—19, 36—37]. С 1970-х годов различные подходы к моделированию человеческой деятельности в различных сферах и предметных областях интегрируются в усилиях по созданию искусственного интеллекта. Под искусственным интеллектом (англ. Artificial Intelligence) понимается междисциплинарная область исследований, связанная с созданием сложных человеко-машинных и робототехнических систем [13, 14]. Подводя итог содержанию данного раздела, констатируем: информация, являющаяся непременным условием существования человеческого общества, представляет собой сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для адекватной реакции на изменения в окружающей среде. Компьютерные инструменты получения, хранения, передачи, распространения и преобразования информации, а также соответствующие законы и методы получили обозначение информационных технологий. Если с помощью компьютеров мы получаем, храним, передаем и распространяем любую информацию, касающуюся языка и законов его функционирования, мы имеем дело с информационными технологиями в лингвистике

ппаратное и программное обеспечение информационных технологий в лингвистике

Компьютер и периферийные устройства как аппаратная основа информационных технологий. Системное и прикладное программное обеспечение. Лингвистические ресурсы (lingware). Автоматизированное рабочее место лингвиста. Для выполнения объемных расчетов над лингвистическими данными, а также для лингвистического моделирования удобно использовать электронные вычислительные машины (или компьютеры). Компьютер — это электронное устройство, служащее для автоматического создания, обработки, передачи и воспроизводства информации по созданным человеком алгоритмам (программам), написанным на понятном для машины языке [43, 42; 15, 22]. Как следует из приведенного определения, в использовании компьютеров сочетается аппаратное {hardware) и программное обеспечение {software) информационных технологий. К аппаратному обеспечению относится сам компьютер (стационарный или переносной), а также периферийные устройства, служащие для ввода/вывода информации в компьютер пользователем (клавиатура, мышь, монитор, принтер и т.д.) или для соединения компьютера с другими устройствами (например, модем). Программное обеспечение — это компьютерные программы, представляющие собой последовательность написанных на машинном языке команд, служащие для управления аппаратными средствами или для выполнения различных операций над информацией, и соответствующая документация. В зависимости от назначения программных средств различают системное и прикладное программное обеспечение. Системные программы служат управлению работой аппаратных средств и включают операционные системы, утилиты, драйверы и некоторые другие виды программ. Прикладные программы предназначены для конечного пользователя и позволяют ему выполнять различные операции над информацией: создавать и обрабатывать текст (текстовые редакторы), обрабатывать графические изображения (графические редакторы), работать над звуковой и видеоинформацией (мультимедийные программы), создавать электронные таблицы для обработки статистических данных (электронные таблицы) и т.д. Для лингвиста особенно полезными являются такие виды прикладных программ, как электронные переводчики и словари, а также мультимедийные обучающие программы. Наряду с аппаратным и программным обеспечением (ПО) информационных технологий некоторые исследователи используют также понятие lingware (или linguware), которым обозначаются все лингвистические компьютерные ресурсы (грамматические справочники, словари, энциклопедии, лингвистические базы данных и т.п.) [ср. 8, 27, 31; 59]. Совокупность аппаратных, программных и лингвистических средств, необходимых для автоматической обработки лингвистических данных, обозначим понятием автоматическое рабочее место (АРМ) лингвиста [22,258]. АРМ лингвиста будет включать сам компьютер, операционное и базовое прикладное ПО, а также всевозможные лингвистические компьютерные ресурсы, касающиеся родного и изучаемых иностранных языков. В зависимости от специализации АРМ лингвиста может дополняться прикладными программами и лингвистическими ресурсами, связанными с переводом или обучением иностранному языку. Задачей обучающихся является постоянная актуализация своего АРМ, включающая поддержание современного состояния аппаратного и программного обеспечения, а также постоянное пополнение собственной лингвистической ресурсной базы, т.е. поиск, сохранение, приобретение или создание лингвистических справочников, словарей и баз данных.

3. ОБЛАСТИ ПРИМЕНЕНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЛИНГВИСТИКЕ





Поделиться с друзьями:


Дата добавления: 2017-02-11; Мы поможем в написании ваших работ!; просмотров: 2526 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Свобода ничего не стоит, если она не включает в себя свободу ошибаться. © Махатма Ганди
==> читать все изречения...

2307 - | 2069 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.013 с.