Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика





Корпусная лингвистика



 


Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов. В имеющейся литературе такие корпусы получи­ли также название мониторных [23]. Особенность сборки мониторных кор­пусов заключается в том, что они не предполагают раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются


корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированным текстовым форматом хранения (запись графем текста в ASCl-кодах) и структурированным форматом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных. Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса [Фрэнсис 1983, с. 344 и далее].






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 434 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Слабые люди всю жизнь стараются быть не хуже других. Сильным во что бы то ни стало нужно стать лучше всех. © Борис Акунин
==> читать все изречения...

2316 - | 2231 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.011 с.