Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика





Корпусная лингвистика



 


(США) и в Институте психолингвистики им. Макса Планка в Неймегене (Нидерланды) [Mac Whinney 1991; Mac Whinney, Snow 1985].

Проблемная область Фрейбургского корпуса — обыденная и офи­циальная речевая коммуникация. Фрейбургский корпус, создававшийся с 1968 по 1974 гг., состоит из двух частей. Первая часть — «Корпус основных структур» (224 текста, из которых 80 текстов опубликовано [Texte gesprochener deutscher Standardsprache 1971-1979]), вторая часть — «Корпус диалоговых структур» (72 текста). Для опубликованных фраг­ментов корпуса был разработан специальный транскрипционный формат представления. В настоящее время Фрейбургский корпус на машинных носителях находится в Институте немецкого языка в Мангейме. Имеюще­еся программное обеспечение позволяет удовлетворять самые различные запросы — по частоте слов и словоформ, по совместной встречаемости в рамках предложения, абзаца, текста и пр.

Существенно, что Фрейбургский корпус объединяет тексты двух различных типов. К первому типу относятся тексты радио- и телевизи­онных передач, предполагающих свободное ведение коммуникации — интервью, дискуссии и репортажи. Разумеется, свобода порождения тек­стов такого рода весьма относительна, поскольку часто первичным для них является письменный сценарий. Второй тип — записи спонтан­ных бесед, которые в ряде случаев производились без предварительного предупреждения. В этом отношении Фрейбургский корпус оказывает­ся чрезвычайно ценным, поскольку с этической точки зрения запись речи без предупреждения говорящего не вполне корректна и считается противоправным действием, что затрудняет получение таких данных.

Кроме рассмотренных выше чисто текстовых корпусов, в Германии представлены также корпусы, которые условно можно было бы назвать мультимедиальными или мультимедийными. Корпусы такого рода, кроме текстовой составляющей, включают видеозаписи процесса коммуника­ции с привязкой к тексту. Примером такого корпуса может служить созданный на секции психоаналитических методов университета Ульма корпус терапевтического дискурса [Mergenthaler 1986]. Корпус состоит из видео- и аудиозаписей бесед, отражающих различные формы и методы психоанализа (парная терапия, семейная терапия, групповая терапия, анализ снов и пр.). Объем корпуса 8,2 млн словоупотреблений. Хотя этот корпус создавался не для лингвистов, тем не менее он представляет зна­чительный интерес для лингвистических исследований различного рода, в том числе для проведения работ в области дискурс-анализа. К сожа­лению, для российской лингвистики мультимедиальные корпусы пока остаются красивой мечтой. Они требуют, кроме наличия чисто техни­ческих возможностей, затрат значительных ресурсов времени. Однако перспективность корпусов такого рода для исследования взаимодействия вербальной и невербальной составляющей естественного диалога не вы­зывает сомнений.


Корпусы письменных текстов немецкого языка. Сейчас в распоряжении лингвистов имеется значительное количество текстов в машиночитаемой форме. Это, однако, не приводит автоматически к появлению хороших корпусов текстов — коллекций текстов, отобранных по фиксированным параметрам, которые определяются некоторой исследовательской зада­чей. В немецкой традиции принципы отображения проблемной области в корпусе текстов в явном виде не обсуждаются. Большая часть корпусов образует замкнутые множества текстов — совокупность произведений одного автора на машинных носителях с необходимой компьютерной поддержкой [Kammer 1993]. В Мангейме в Институте немецкого языка представлены на машинных носителях корпусы текстов Томаса Манна и Гёте; в Бонне имеется также корпус текстов Канта, в Аахене/Зигене — корпусы текстов Гельдерлина, Клейста и Новалиса. К сожалению, точного и полного описания этих корпусов обнаружить не удалось.

Кроме корпусов художественных текстов, в Институте немецкого языка в Мангейме в распоряжении исследователей имеются: 1) Бонн­ский корпус газетных текстов, объемом в 3 млн словоупотреблений (в качестве единицы хранения выступает текст всего номера газеты); 2) Корпус текстов справочников (Handbuchkorpora, около И млн сло­воупотреблений); 3) два корпуса текстов различных типов (Mannheimer Korpora I & II); 4) так называемый LIMAS-корпус (LIMAS сокр. от Lin­guistische und MAschinelle Sprachubersetzung). Последний корпус состоит из 500 подкорпусов по 2 000 словоупотреблений каждый, представляющих тексты различных типов, опубликованные в 1968 г.

Все эти корпусы имеются на машинных носителях, что позволяет, используя необходимое программное обеспечение, проводить обработку массивов текстов по различным параметрам. Так, например, возможен поиск на любую комбинацию слов в рамках любого фрагмента кор­пуса (строки, предложения, абзаца, главы и т.п.). Имеющаяся система лемматизации дает возможность пользователю не перечислять всех слово­форм слова при поиске, что особенно важно для глаголов. Лемматизация позволяет, кроме того, осуществлять поиск разрывных составляющих.

Значительный интерес представляет «Wendekorpus», занимающий промежуточное положение между корпусами разговорной речи и пись­менных текстов [Teubert 1990]. Он включает, с одной стороны, газетные и журнальные тексты, а с другой — транскрипты интервью, круглых столов, радиодискуссий и т. п. Объем корпуса — 3,3 млн словоупотре­блений. Проблемная область корпуса — тексты публичной политики за период 1989-1990 гг., касающиеся политических изменений в бывшей ГДР и объединения Германии. Наполовину корпус состоит из текстов средств массовой информации бывшей ГДР, наполовину — из текстов средств массовой информации ФРГ. «Wendekorpus» находится в Инсти­туте немецкого языка в г. Мангейм и доступен для работы по Интернету в режиме on-line.






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 364 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Чтобы получился студенческий борщ, его нужно варить также как и домашний, только без мяса и развести водой 1:10 © Неизвестно
==> читать все изречения...

4430 - | 4364 -


© 2015-2026 lektsii.org - Контакты - Последнее добавление

Ген: 0.007 с.