Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Информационное построение текста 3 страница




– немецкого и английского;

– испанского и французского (или румынского);

– русского (или польского и чешского) и болгарского.

С этой же целью можно сопоставить избыточности архаичного казахского и более продвинутого благодаря сильной тюрко-иранской интерференции узбекского языка.

Результаты такого сопоставления во всех случаях одни и те же: из-быточность и соответственно энтропия языков, вступивших в результате интерференции в зону перестройки, остаются на том же уровне, что и из-быточность их более архаичных синтетических родственников, не испы-тавших интерференционного удара других языков. Поэтому можно пред-положить, что в ходе структурного преобразовании языковой системы в этот процесс включается некоторый особый механизм защиты гомеостаза, благодаря которому в си-стеме сохраняется равновесие "порядка" и "хао-са", обеспечивающее языку бесперебойное функционирование в качестве полновесного средства обще-ния и реализации когнитивных мыслитель-ных функций. Отсюда следует, что перескок из одного состояния равно-весия системы языка в другое и измене-ние ее управляющих параметров не могут быть описаны с помощью общих оценок энтропии, синтактической информации и избыточности. Необходимо найти иной лингвистический материал, в котором можно было бы обнаружить такие статистические и информационные параметры, которые реагировали бы на качественную перестройку синергетики конкретного языка.

 

5.9. Диахроническая синергетика и лингвостатистика.

 

Среди информационно-статистических измерений, которые могли бы быть использованы для выработки исчисляемых параметров динами-ческих синергетических моделей, наибольший интерес представляют измерения, связанные с законом Менцерата–Альтманна, а также со статистикой "диахронического скачка".

В первом случае речь идёт об изменении длин с/ф, измеряемых в слогах или морфемах. Рассмотрим в этой связи данные табл. 22. Они по-казывают, что в консервативных языках, несмотря на их разные истори-ческие судьбы, слоговая структура слова, т.е. энтропия распределения количества слогов в словоформе (H сл) и средняя ее длина в слогах (l), выше, чем в более динамичных языках той же группы или семьи. Так, уменьшение значений параметров l и H сл напрямую отражает рост аналитизма и в романской (латинский – румынский), и в германской (немецкий – английский) языковых парах. Возможно, с этим же связано уменьшение этих параметров и в татарском языке, который в большей степени, чем казахский язык, подвергся влиянию арабского, персидского, русского и соседних финно-угорских языков [18].

 

Таблица 22. Слоговая структура слова и ее энтропия в некоторых

индоевропейских и тюркских языках, (см. [62. C. 192; 89. C. 84])

Языки l Hсл bits
Латинский 2,36 2,09
Румынский 1,95 1,83
Немецкий 1,63 1,52
Английский 1,35 1,22
Казахский 2,56 3,29
Татарский 2,41 3,17

Во втором случае – при скачкообразной перестройке системы языка отмечаются резкие изменения в статистике отдельных грамматических форм или лексических групп. Эти статистические изменения описываются S-образными кривыми, которые аппроксимируются в общем виде зависимостью

1

p =――――― ,

1 + ae- bt

где p ― вероятность появления слова или грамматической формы исследу-емого класса, t ― время, отсчитываемое от начала бифуркационного пери-ода, a и b ― коэффициенты, подбираемые относительно cтроя языка и лек-сико-грамматического класса с учётом резкого роста или, наоборот, сокра-щения употребительности исследуемых лингвистических объектов. Эта за-висимость, традиционно применяемая при моделировании катастрофиче-ских "скачков" в развитии биологических и экономических систем, доста-точно хорошо описывает такие лингвистические процессы, как стано-вление опреде-лённого артикля в эпоху превращения поздней народной латыни в старо-французский язык, наплыв арабизмов в средневековой персидской прозе, латинизация и славянизация венгерской лексики [62. C. 31 ― 38, 64 ― 70; 81].

 

5.10. Заключительные замечания

Результаты информационных измерений используются при решении как теоретических, так и прикладных проблем.

Если говорить о теоретическом аспекте, то это касается в первую очередь вопросов синергетической организации языка в целом и его раз-новидностей. Получаемые в ходе статистических и психолингвистических опытов информационные величины (см. табл. 14) являются обобщенными оценками разнородных лингвистических и экстралингвистических явле-ний. В них суммируется и синтактическая и различные виды смысловой (прагматической, сигматической, семантической и коннотативной) инфор-мации, представляющие интерес не только для языковедов, но также и для специалистов в области информатики и физиологии высшей нервной дея-тельности человека.

Выяснилось, что обследованные языки имеют примерно одинаковый уровень избыточности и энтропии, который, очевидно, обусловлен биосо-циальной природой языка, являющегося основным средством общения. Такой выработанный веками уровень избыточности служит средством за-щиты сообщения от физических, психологических и лингвистических по-мех. Выяснилось также, что изменение тематики, профессиональной и стилистической ориентации текста немедленно влечёт за собой изменение в нём баланса хаоса и порядка. Рост внешней энтропийной неупорядочен-ности в разговорной речи, поэзии и художе-ственной прозе, создаёт аль-тернативное поле для будущих конструктив-ных инноваций в системе языка. Напротив, уменьшение энтропии и рост упорядочения текста ха-рактерны для таких нормализованных стилей как публицистическая и научно-техническая речь, а особенно для “жестких” языков-номенклатур типа переговоров ‘‘земля ― воздух’’. Одновременно выясняется, что значимые отклонения энтропии текста от стандартного уровня в сторону ее увеличения свидетельствуют об ослаблении психолингвистических механизмов саморегуляции в системах языка и речи. Это наблюдается в первую очередь в индивидуальной речи больных, страдающих речемы-слительными расстройствами [3, c. 409 и cл.].

Что касается прикладного аспекта, то интерес к информационно-стати-стическим измерениям изначально был стимулирован задачами разработки секретных кодов и раскрытием кодовых систем противника [113. С. 656 ― 715]. В настоящее время диапазон прикладных выходов синергетических и информационно-статистических результатов анализа текста расширяется.

Информационные измерения выявляют некоторые другие синергетиче-ские особенности РМД представляющие интерес для физиологии высшей нервной деятельности человека. Выясняется в частно-сти, что текст дает квантовое распределение информации (рис. 15 ― 18). Это свидетельствует о том, что письменная и, вероятно, устная речь гене-рируется, воспринимается и перерабатывается нашей памятью не непреры-вно, а путем ритмической отдачи накопленных квантов информации. В ка-честве такого кванта выступает морфема ― элементарная знаковая едини-ца текста. Что же касается слова в письменном тексте, то основная часть информации сосредоточена в его начале. Концы и середины слов несут не-много информации, а иногда оказываются избыточными. Сведения о зер-нистом распределении информации в тексте, об информационной нагру-женности начал слов и избыточности их середин интересны не только с точки зрения организации РМД человека. Они учитываются при решении задач, связанных с кодированием и компрессированием информации.

 

.

 

Часть II. СИСИСТЕМЫ АВТОМАТИЧЕСКОЙ ПЕРЕРАБОТКИ ТЕКСТА

 

Глава 6. ЛИНГВИСТИЧЕСКИЙ АВТОМАТ *)

 

6.0. Вводные замечания

 

Выше уже говорилось о том, что эпистемологическое допущение, по которому естественный язык есть некоторое исчисление, аналогичное по своей природе логическому языку компьютера, оказалось неверным. Вы-яснилось, что между языком компьютера и языком человека существует своеобразный барьер отторжения, реализующийся в ряде генетических антиномий. Построить реально работающую систему автоматической пе-реработки текста высокой сложности невозможно без учета этих антино-мий и без создания процедур, способствующих ослаблению и понижению указанного барьера. Именно поэтому мы так подробно говорили в преды-дущих разделах о принципах моделирования лингвистических объектов и процессов, а также о синергетических механизмах языка. Эти сведения нужны для выработки эффективных приемов построения лингвистических автоматов, в том числе обучающих.

_____________________________________________________

*) В этой главе использованы идеи и материалы статей автора «Новые горизонты машинного перевода» (НТИ. Серия 2, 2002, N 1. C. 17-29) и «Linguistic automaton» (QL. 2005. C. 921 - 931). Последняя написана в соавторстве с Л.Н.Беляевой.

 

6.1. Архитектура лингвистического автомата

 

Лингвистический автомат представляет собой сбалансированный комплекс аппаратных (hardware), программных (software), лингвистических (linguware), а иногда и лингводидактических (tutorware) средств, взаимо-действующих с мощной базой лингвистических данных и знаний (ЛИБ).

Исходя из информационной и социально-экономической обстановки на рубеже XX и ХХI веков, ЛА должен обладать следующими свойствами:

– полифункциональностью, т.е. способностью осуществлять разные виды обработки больших потоков текстовой информации;

– минимизацией информационных потерь и ослаблением эффекта отторжения ЕА языком ЛА;

– живучестью, под которой понимается способность ЛА сохранять свои наиболее существенные свойства в результате воздействия на ЛА таких катастрофических факторов, как выход из строя внешних устройств или участков оперативной памяти, искажение отдельных фрагментов текста и т.п.;

– возможностью подключения к различным каналам связи, в частности к сетям Интернет;

– способностью к дальнейшему развитию и усовершенствованию, кото-рые диктуются необходимостью адаптировать ЛА не только к коммуникатив-но-информационной эволюции общества, но и к прагматике отдельных потребителей.

ЛА строится в виде иерархической системы программных модулей (М), каждому из которых присваивается определенный номер. Некоторые из них имеют вид многоуровневой системы п о д м о д у л е й. Каждый модуль осуществляет конкретную операцию по переработке текста и может функционировать как независимо, так и в сочетании с другими блоками. ЛА включает два множества модулей. Первое охваты-вает следующие ‘‘интеллектуальные’’ модули:

(1) М фонетического или графического распознавания текста входного документа, а также фонетико-графемного синтеза;

(2) М опознания языка, на котором написан текст или его фрагменты и их нормализация;

(3) М классификационного индексирования;

(4) М информационного поиска;

(5) М аннотирования;

(6) М перевода иноязычного текста;

(7) дидактический М, преобразующий ЛА в ОЛА.

Второе множество включает такие ориентированные на рутинные операции блоки как, (i) сканер, (ii) орфографические корректоры, (iii) М создания и поддержки алфавитных, обратных и частотных лексиконов, (iv) М создания документов.

Рассмотрим операции, выполняемые ‘‘интеллектуальными’’ модулями.

М (1). Фонетико-графическое распознавание входного текста стро-ится на базе современных систем устного ввода и вывода. Здесь исполь-зуется методика вероятностных гипотез, которые затем про-сеиваются через семантико-синтаксический и прагматический фильтры. В качестве таких фильтров выступают чаще всего модули (3), (5) и (6). Одна из моделей этого взаимодействия будет описана несколько позже.

М (2). ЛА подобно другим современным промышленным системам АПТ, функционируя в пакетном режиме реального времени, перерабаты-вают большие массивы устных или письменных документов. К ним отно-сятся перехваченные и дешифрованные радиотелефонные переговоры ти-па "земля - воздух" и "земля - вода", почтово-телеграфная коммуникация, коммерческая переписка, научно-техническая и патентная документация и т. п. [25; 43а; 84a]. Все это делает практически невозможным предвари-тельное или внутреннее редактирование, а тем более постредактирование таких документов.

Многие специалисты в области информатики убеждены, что указан-ные тексты используют ограниченные по объему словари и наборы семан-тических примитивов и синтаксических шаблонов. А это должно значите-льно упростить задачу их перевода, аннотирования и других форм АПТ, проходящих без вмешательства оператора. Все это так. Однако нельзя за-бывать, что передача текстовой информации по названным каналам связи характеризуется ря-дом особенностей, затрудняющих ее формальный анализ. В первую очередь здесь заслуживают внимания следующие обстоятельства.

1. Поступающие на вход компьютера тексты могут включать значи-

тельное число иноязычных вставок; это особенно характерно для корейских, арабских, ивритских и японских деловых и научно-технических документов. Ср. японский составной терминологический знак APU (эй-пи:-ю:-кайтэнкэй) ‘тахометр вспомогательной силовой установки’.

2. Информационный поток может состоять из разноязычных текстов, причем переход с одного языка на другой никак формально не отмечается (такая ситуация характерна для документов НАТО и ЕС).

3. Обрабатываемый поток может включать документы, принадлежа-

щие разным подъязыкам и жанрам, а сами документы могут состоят из разнородных тематических и стилевых фрагментов.

4. Перерабатываемые тексты содержат большое количество незакон-ченных фраз или фраз с ненормативным синтаксисом. Здесь встречаются орфографические (фонетические) ошибки и описки (оговорки), лексиче-ские, грамматические и полиграфические (фонационные) искажения, в том числе и такие, которые генерированы звуковым анализатором или читаю-щим устройством. Эти ошибки не могут быть однозначно исправлены спеллером без помощи редактора.

Определив общую задачу нормализации текста, перейдем к рассмотре-нию блока распознавания языка, на котором написан документ или его фраг-мент. Этот блок является важной составной частью ЛА, работающего как в режиме устной справки, так и перерабатывающего большие массивы много-язычной информации, например, документы НАТО или ЕС. Задача распозна-вания может решаться либо детерминистским способом с помощью индикаторов, относящих текст к одному из заранее заданного набора языков, либо путем вероятностного отнесения текста к одному из языков определенной семьи или группы.

Поскольку метод индикаторов применяется в большинстве модулей ЛА, рассмотрим его основные принципы. В случае письменного текста реше-ние опирается либо на опознании алфавита, либо на обнаружение специфиче-ских графем, буквосочетаний или наиболее частых словоформ. Технология опознания зависит здесь в первую очередь от того, описанием каких языков располагает ЛА. Так, если в этом наборе имеется только один язык, использу-ющий на письме кириллицу, например, русский, то опознание автоматом ки-риллического шрифта служит сигналомом для вызова linguware, предназна-ченного для обработки русского текста. Если же в наборе присутствуют дру-гие славянские языки, использующие кириллицу, то приходится привлекать дополнительные индикаторы: для белорусского им служит буква Ў, для сербского буквы Ђ, J, Љ, Њ, Ћ, для украинского - графемы Ї,Є а для русского – одновременное присутствие в тексте букв ы, ъ, э. Болгарский язык опознается по отсутствию всех перечисленных выше графем-индикаторов за исключением буквы ъ. Сложнее обстоит дело тогда, когда представленные в наборе данного ЛА языки пользуются общей графикой, не содержащей букв, которые могли бы стать индикатором того или иного языка. Такая ситуация возникает и тогда, когда ЛА получает текст, в котором снята диакритика, как это имеет место в Интернете. Здесь в качестве индикаторов приходится использовать cамые частотные словоформы, при условии, что каждая из них характе-ризует только один язык из имеющихся в наборе ЛА. Так, из первых пяти наиболее частых словоформ, использующихся в текстах Корпуса LOB [95]), только первые четыре ― the, of, and и to могут выступать в качестве показателей принадлежности текста к английскому языку. Что касается с/ф in, то она та-ким индикатором быть не может, поскольку используется на каждом шагу в немецком, итальянском и некоторых других языках. Немец-кий язык также имеет в этой зоне четыре специфических с/ф die, der, und, zu [26; 105]. Французский язык обнаруживает в этом диапазоне одну диагносцирующую словоформу – et [97], итальянский ― две: di и egli [85]. В испанском частотном списке такие индикаторы появляются начиная с седьмой позиции [98]. Впрочем, детерминистская процедура не гарантиру-ет нас от ошибок. Действительно, если речь идет о самостоятельном опоз-нании читающим устройством письменности документа, наличие таких омографов, как рус. сор и англ. сop ‘поймать, застать’, рус. сe и фр. ce ‘это’, рус. cepa и исп. cepa ‘пень, основа’, рус. pe (нота) и рум. pe ‘на’ не может обеспечить стопроцентное отнесение всех с/ф документа к кирил-лической или латинской письменности. Что касается устной речи, где в качестве диагностических индикаторов должны использоваться звуки и их сочетания, специфические для конкретного языка, то здесь мы сталкиваем-ся с вариативностью произношения у различных носителей конкретного языка. Для выработки вероятностных произносительных шаблонов, харак-теризующих тот или иной язык, приходится использовать многоязыч ные ЛИБ, включающие тексты, прочитанные большим числом дикторов (до 100) на разных языках [15]. При этом особое значение имеет распознава-ние звуков, ранее для ЛА неизвестных. Решение здесь достигается путем применения тонкого статистического анализе на основе скрытых марков-ских моделей [111. С.217 и сл.]. Наборы характеристик, необходимых для распознавания, должны быть независимыми от типа текста и особенностей произношения конкретного диктора.

Следует помнить, что опечатки и другие полиграфические искаже-ния могут повлечь неверное опознание со стороны ЛА диагносцирующих индикаторов. Так, нечетко отпечатанное английское and может быть про-читано сканером как немецкое und, а французское et воспринято им как испанское el, и наоборот. Чтобы избежать ошибок, целесообразно вместо лобового детерми-нистского опознания применять более осторожную и сложную, но зато более надежную вероятностно-идеографическую процедуру, которая учитывает комбинаторику и статистику появления индикаторов в обрабатываемом тексте. Эта процедура будет подробно описана в разделе, посвященном модулю (3).

Из всего сказанного следует, что первым обязательным условием для распознания смысла документа, входящего в информационный поток, являя-ется его максимальная адаптация к возможностям языка-исчисления ЛА. Эта адаптация, осуществляющаяся на начальных уровнях переработ- ки текста (модули (1) – (3) и (i)), предусматривает фонетическое или гра-фическое распознавание теста сообщения, отнесение документа или его фрагментов к определённому языку, подъязыку или тематике, формати-рование и разметку текста, коррекцию фонетических, орфографических, а иногда лексико-грамматических ошибок. В тех случаях, когда входной текст прошел оптимальную нормализацию, ЛА, обладающий достаточно сильным лингвистическим обеспечением, может выдать уже на нулевом уровне достаточно полное распознавание смысла документа.

М (3). В ходе обработки многоязычных потоков сообщений часто необходимо не только опознать язык, на котором произнесен или написан текст, но также отнести его к определенному подъязыку или темнаваатике. Эта задача решается с помощью лексико-статистических методов, которые на основе анализа вероятностного соотнесения ключевых ЛЕ документа с заранее заданными словарными эталонами позволяют cоотнести текст с определенным подъязыком или тематической рубрикой. Учитывая размытый характер большинства объектов естественного языка, для опре-деления соответствия документа и тематической рубрики используются такие оценки, применяемые в теории нечетких множеств [31. С. 30 и cл.], как низкое, среднее, высокое, очень высокое соответствие. Принципиаль-ная блок-схема алгоритма, описывающего эту процедуру, показана на рис. 18. Прокомментируем работу некоторых блоков алгоритма. Операция сегментации (блок 1), разумеется, абсолютно необходима для обычно слитнороизносимого устного текста.

 

Вход

 
 

0 ½ Ввод текста и диагносцирующих эталонов
2 ½ Составление рабочего алфавитно-частотного списка ½ (АЧС) знаменательных ЛЕ из обрабатываемого текста

 

 

1 ½ Акустическая или графическая сегментация текста и ½ идентификация сегментов с ЛЕ одного из рабочих языков ЛА

 

 

 
 

3 ½ Сравнение очередной ЛЕ из АЧС с лексической ½ единицей очередного диагносцирующего эталона

 

       
   
 
 

 


Есть ли

 
4 такая ЛЕ в эталоне? 3

нет

5 Вычисление значения c2 для ЛЕ из АЧС, совпавшей с ЛЕ диагносцирующих эталонов

да

да


АЧС текста

6½просмотрен полностью? 3

7 Суммирование всех ЛЕ из АЧС текста, значение c2 которых попадает в зону согласия. Определение степени принадлежности текста к языку (подъязыку или тематике)

нет

да

 

Выход

 

 

Рис. 18. Принципиальная блок-схема отнесения текста к определенному языку, подъязыку или тематике

Вместе с тем в условиях пакетной обработки больших массивов нередактированных письмен-ных документов автоматическое расчленение слитно записанных последовательностей с/ф также становится до-статочно актуальным (см. ниже). В результате этой операции входной текст T оказывается представленным в виде последовательности сегментов

 

T = s 1, s 2 ,...s i ,...s n.

Разумеется не все эти сегменты выделены правильно и соответствуют слово-формам языка документа. Поэтому в последующих блоках работа ведется только с теми сегментами, которые совпали с ЛЕ того или иного из рабочих языков ЛА.

При составлении рабочего алфавитно-частотного списка (АЧС) слово-форм и с/с (блок 2) в него вносятся только такие ЛЕ, которые являя-ются диагносцирующими применительно к данному языку, подъязы-ку, предметной области или тематике. Для этого из предварительно состав-ленного словаря текста исключаются антипризнаки. Для русских и других индоевропейских языков такими антипризнаками считаются служебные слова, т.е. союзы (рус. и, но, англ. and, but), предлоги (рус. в, к, фр. à, dans) и т.п., а также общеупотребительные ЛЕ типа вопрос, время, в настоящее время и т. д.

Затем, путем сравнения словоформ и словосочетаний из АЧС текста с ЛЕ диагносцирующих эталонов (см. блоки 3 - 4) отбираются такие ЛЕ, кото-ые могут выступать в качестве индикаторов принадлежности текста к тому или иному подъязыку (тематике или языку).

На следующем шаге (блоки 5 – 6) определяется мера статистической связи между каждой отобранной из АЧС ЛЕ и ее двойником в диагносцирующем эталоне. Эта операция осуществляется с помощью критерия c2 вида:

 

(N + N i1) (F i N jF ij N) 2

c2 = --------------------------------------------,

NN i (F j +F ij ) [(NF i) + (N iF ij ) ]

где N ― объем обрабатываемого текста, F j―частота j -й ЛЕ-индикатора в те-ксте обрабатываемого документа, N i ― объем эталонной выборки для i- й предметной области (тематики, подъязыка или языка), F i j ― частота употреб-ления j -й индикаторной ЛЕ в i - й предметной области (подъязыке и т.д.). По-лученные для каждой j -й ЛЕ из АЧС текста значения c2 сравниваются с задан-ной пороговой величиной c2(q, r), где q есть c2 уровень значимости, а r ― ко-личество степеней свободы. Значения c2, лежащие ниже порога c2(q, r), попа-дают в зону согласия. Это указывает на то, что статистическое поведение j- й ЛЕ из АЧС в тексте соответствует вероятностной характеристике ее двойника в эталоне. В заключение в блоке 7 вычисляется коэффициент отнесения обра-батываемого текста (фрагмента) T к каждому из перерабатываемых ЛА язы-ков, подъязыков или тематик k. Для этого используется выражение Tk = G/L, где G ― число тех значений c2 для текстовых ЛЕ, которые попадают в зону согласия, т. е. c2 < c2(q, r), относительно предметной области, языка, подъязыка, тематики k, а L ― количество значений c2, полученных для всех инди-каторных ЛЕ текста.

Применительно к задаче опознания языка описанная процедура одно-значно указывает на тот язык, к которому с наибольшей вероятостью относит-ся обрабатываемый текст. При этом отбрасываются как малове-роятные лож-ные гипотезы об отнесении этого текста к другим языкам. Такие гипотезы мо-гут появиться в результате ошибочного прочтения ЛА некоторых диагносци-рующих ЛЕ (ср. выше). В тех случаях, когда текст предположительно содер-жит иноязычные вставки, в алгоритм необходи-мо ввести блоки, фиксирующие адреса этих вставок. Для определения подъязыка, тематики или предмет-ной области может быть использован весь вероятностный спектр атрибуции текста (см. рис. 18).

Описанная процедура применяется в качестве первого шага смыс-ловой обработки самых разнообразных текстов. Особенно эффективно она работает при условии, что ЛА располагает жестко структурированным описанием конкретной предметной области. К таким областям относятся:





Поделиться с друзьями:


Дата добавления: 2016-11-03; Мы поможем в написании ваших работ!; просмотров: 491 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Человек, которым вам суждено стать – это только тот человек, которым вы сами решите стать. © Ральф Уолдо Эмерсон
==> читать все изречения...

2345 - | 2195 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.011 с.