Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 121





Корпусная лингвистика 121


 


Имеющиеся компьютерные программы, ориентированные на обра­ботку корпуса текстов, строятся по двум основным стратегиям. В первом случае программа порождает для текста комплекс указателей, в частно­сти, указатель словоформ, в котором для каждой словоформы указывается адрес в тексте. В дальнейшем при составлении конкордансов программа оперирует не столько текстом как таковым, сколько указателями к нему. Типичный пример программ такого типа — программные пакеты UNILEX (Машинный фонд русского языка) [Мошкович 1989], а также американ­ские программы ETC и WORD CRUNCHER (более поздняя версия пакета ETC; компания Electronic Text Corporation и Brigham Young University) [WordCruncher 1989 a; WordCruncher 1989 b]. В Великобритании использу­ется аналогичный по функции пакет ОСР (Oxford Concordance Program), а в Германии — программа TEXTPACK[25]. При второй стратегии для поиска необходимых контекстов программа каждый раз последовательно просматривает текст, маркируя те фрагменты, которые удовлетворяют по­исковому заданию (см., например, программа DIALEX-DIAWIN — отдел экспериментальной лексикографии Института русского языка РАН [Иса­ев 1996]). Достоинства и недостатки первой и второй стратегии связаны с двумя факторами: с необходимостью предварительной обработки кор­пуса (подготовки его к составлению конкордансов) и с объемом корпуса. Первая стратегия (программы типа UNILEX) предполагает предваритель­ное разбиение текстов на модули и составление больших указателей, что, разумеется, требует значительного рабочего времени и наличия больших ресурсов памяти.

Совершенно иная ситуация с программами, работающими по вто­рой стратегии (программы типа DIALEX): указатели, которые они строят по корпусу текстов, являются временными и уничтожаются по мере выполнения алгоритма. Они не требуют предварительной обработки кор­пуса, членения текстов на отдельные модули и т. п. Но программы такого рода должны использовать очень продуктивные подпрограммы обработки текста, поскольку каждый поиск предполагает сплошной просмотр кор­пуса. Фактически программы типа DIALEX состоят из «кирпичиков» — очень продуктивных программ-перекодировщиков типа «FT». Основ­ной недостаток второй стратегии заключается в том, что значительное увеличение массива текстов в корпусе существенно замедляет работу про­граммы. В настоящее время эта пороговая величина находится на уровне 100 мегабайт. В этом случае более выгодно использовать программы ти­па UNILEX, работающие при составлении конкордансов не с текстами как таковыми, а с указателями к ним. Очевидно, однако, что разметка 80-100-мегабайтного корпуса и составление к нему указателей потребует значительного времени[26].


Особого программного обеспечения требуют корпусы параллельных текстов. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [Groß, Mißler, Wolff 1996]. В настоя­щее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разных текстов целевые языки и языки-источники варьируются. Корпус параллельных текстов полностью интегрирован в программу. Он включа­ет разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разным словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:

 

First, she tried to look downand make out what she was coming to, but it was too dark to see anything; Als erstens spähtesie in die Tiefe hinab,um zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daß man nichts sehen konnte;
It was as much as she could do, lying down on one side, to look throughinto the garden with one eye; Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken,aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je;

Результаты поиска могут сортироваться по объему, алфавиту, по про­изведениям, авторам и т.д. Предполагается использовать MULTICON­CORD на занятиях по изучению иностранных языков, литературы и в сфе­ре контрастивной лингвистики.

Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установле­нии соответствий между оригинальными текстами и переводами. Понят­но, что тривиальное соответствие по словам или предложениям здесь не­возможно. Теоретически обоснованным было бы использование техноло­гий систем машинного перевода с языком-посредником или универсаль­ным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в про­стых случаях устанавливали лексические соответствия, а в случае свобод­ного перевода индексировали целые фрагменты предложений или текстов.





Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 334 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Люди избавились бы от половины своих неприятностей, если бы договорились о значении слов. © Рене Декарт
==> читать все изречения...

4475 - | 4340 -


© 2015-2026 lektsii.org - Контакты - Последнее добавление

Ген: 0.014 с.