Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 133





Корпусная лингвистика 133


 


проблемной области. Верхний предел корпуса ограничивался прагмати­ческими соображениями — местом на носителе информации и скоростью работы сервисных программ.

Как уже говорилось выше, разные пользователи предъявляют различ­ные требования к корпусу. Нельзя не учитывать и тот факт, что многие пользователи могут оказаться нелингвистами. Этих людей будет интере­совать отражение конкретных событий в прессе определенного периода, они захотят читать целые тексты, а не отбирать ограниченные по объему примеры употребления. Чтобы учесть разнообразные интересы, необхо­димо составлять корпус из целых текстов, а не из отрывков, как зачастую практиковалось в начальный период развития корпусной лингвистики[30]. Следует учитывать, что лингвисты разных профилей предъявляют разные требования к корпусу данных. Для исследований по морфологии и синтаксису, как правило, не требуется очень больших массивов текстов. В ряде случаев это просто нежелательно: например, объем конкордан­сов на употребление служебных слов типа или, да, нет может достигать нескольких тысяч страниц. На один интересный пример может приходит­ся сотня тривиальных. Для исследований по грамматике представляется важным иметь в корпусе тексты, различающиеся по структуре и по жанру. В то же время массив текстов должен быть достаточно большим, чтобы обеспечить получение примеров на редкие слова. Только в этом случае корпус будет представлять интерес для лексикологов и лексикографов.

Таким образом, задача составителей корпуса текстов — постараться по возможности учесть интересы различных пользователей. Для это­го необходимо, чтобы все тексты, входящие в корпус, были снабже­ны достаточно подробным «поисковым образом», который позволил бы программному обеспечению «фильтровать» исходный большой массив, исходя из нужд пользователя.

В отличие от корпуса языка Достоевского, корпус по современной публицистике потребовал разработки сетки параметров, позволяющих осуществить инвентаризацию проблемной области и обеспечить ее ре­презентативное представление в корпусе. Единицей хранения корпуса текстов по публицистике является текст или его относительно закончен­ный фрагмент. Параметризация проблемной области при формировании корпуса текстов по современной публицистике основывается на следую­щих основных факторах:

• фактор автора текста: журналист/непрофессиональный политик vs. профессиональный политик (распределение по политикам учитывает как крупных политических деятелей типа Ельцина, Путина, Черно­мырдина, Немцова, Хакамады, Селезнева, Гайдара, Жириновского, так и политиков второго ряда); отдельно стоит проблема выявле­ния «команд спичрайтеров», определяющих собственно языковое

 


оформление текста — в ряде случаев данная проблема решается довольно легко, но для многих текстов это не возможно в принципе;

• фактор персонификации-деперсонификации автора (конкретный че­ловек vs. партия/общественное движение/политическая организа­ция/учреждение vs. деперсонифицированный текст — лозунги, пе­редовицы и т. п.);

• фактор адресата (кому адресован текст: сторонники — противники — нейтральная аудитория; профессиональная ориентация — выступле­ние перед шахтерами; творческой интеллигенцией и пр.);

• фактор прагматических условий порождения текста (речь на ми­тинге — речь на заседании институционального органа —- интер­вью — пресс-конференция (всего было учтено 15 типов условий произнесения));

• фактор источника: журнальный текст — книжный текст — листов­ка — агитационный плакат — лозунг — телевидение — радио;

• коммуникативное распределение (монологический текст — диалог;
общие типы иллокуций: демонстрация намерений, например, поли­
тическая программа — аргументативный диалог и пр.).

На основе сформулированных факторов была сформирована матрица параметров, позволившая выделить из проблемной области около 70 ти­пов текстов. Эта типология и была положена в основу отбора текстов

в корпус.

Кодировка единиц хранения массива. После параметризации текстов были определены те характеристики, которые фиксировались в дескрип­ции каждого текста в корпусе (о фасетной формуле — см. особенности организации фактографических информационно-поисковых систем в § 4 главы 4): 1) источник (значения параметра: «Век», «Дружба народов», «Завтра», «Знамя», «Известия», «Итоги», «Молодая гвардия», «Москов­ский комсомолец» и т.д.); 2) автор (около 1000 авторов); 3) название статьи (1 368 названий); 4) политическая ориентация издания («общеде­мократическая» пресса; «левая» пресса); 5) жанр (значения параметра: «воспоминания», «интервью», «критика», «круглый стол», «очерк», «про­блемная статья», «репортаж», «рецензия», «фельетон»); 6) тема (значения параметра: «внутренняя политика», «внешняя политика», «литература», «искусство» — всего 39 различных тем); 7) время (период 90~х гг.; было включено также несколько характерных статей периода «ранней пере­стройки»).

Программное обеспечение. Корпус текстов очень сильно проигрывает, если к нему не сделан «дружественный» пользовательский интерфейс, по­зволяющий производить обработку текстов и не требующий специальной подготовки пользователя.

Вообще, следует отметить, что в настоящее время не существует стандартного программного пакета обработки текстов, который удовле­творял бы нужды всех пользователей, работающих с письменными ис­точниками (см. по этому поводу выше). По этой причине организации,






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 284 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Стремитесь не к успеху, а к ценностям, которые он дает © Альберт Эйнштейн
==> читать все изречения...

4264 - | 4149 -


© 2015-2026 lektsii.org - Контакты - Последнее добавление

Ген: 0.009 с.