Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Глава 3. Оптимизация эпистемической функции языка. §3. Корпусная лингвистика__ 131





§3. Корпусная лингвистика______________________ 131


 


• жанровое распределение (предпочтение отдавалось жанрам, отража­ющим такие сферы функционирования языка, для которых типич­но употребление частиц: газетные и журнальные интервью; тексты радио- и телевизионных дискуссий; драматургические произведе­ния; поэзия представлена минимально; классическая литература также представлена образцами, в которых широко используются дискурсивные слова).

В настоящее время корпус по дискурсивным словам русского язы­ка включает около 30 мегабайт (приблизительно 15 тысяч страниц) текстов.

Корпус текстов словаря языка Достоевского. Текстовый корпус До­стоевского создавался как источник для словаря языка Достоевского. Параметры организации корпуса определялись правилами построения словарной статьи: поскольку словарная статья предполагала составление указателя ко всем употреблениям слова, то корпус должен был охватывать все тексты Достоевского — как художественные, так и публицистические. Тем самым сложности, связанные с разработкой теоретических оснований отображения проблемной области, отсутствовали. В качестве основного текстового источника использовалось академическое полное собрание сочинений Ф. М. Достоевского. Единицей хранения в корпусе текстов словаря является отдельное произведение (любого размера — от романа до письма). К настоящему времени на машинных носителях находятся все художественные произведения, публицистика и эпистолярное наследие писателя. Корпус хранится в ASCII формате с минимальной размет­кой, позволяющей осуществлять адресацию к произведению и странице по полному собранию сочинений. Для программной поддержки был разработан специальный пакет программ DIALEX-DIAWIN, идейную основу которого заложил М. Марон. Окончательное оформление пакета, доведение его до рабочего вида и дальнейшее развитие осуществлено И.Исаевым [Исаев 1996].

Основное направление развития Корпуса текстов словаря Достоев­ского в настоящее время — совершенствование программного обеспе­чения и технологии подготовки словаря. Кроме того, осуществляется ряд исследований, в результате которых предполагается получить слова­ри, которые можно будет использовать для лингвистического изучения корпуса текстов Достоевского. Сейчас готов частотный словарь, соста­вленный А. Я. Шайкевичем. Сформирована база данных по идиоматике Достоевского для словаря идиом писателя.

Корпус текстов словаря языка Достоевского существует также в CD-ромной версии («Достоевский: Тексты, исследования, материалы»), рас­пространяемой вместе с программами обработки корпуса, базой данных по идиоматике и базой данных по частотному словарю, составленному А. Я. Шайкевичем.


Динамический корпус текстов по современной публицистике (90-е гг.) [29].

Этот корпус текстов относится к числу новых проектов, осуществляемых в отделе экспериментальной лексикографии Института русского языка РАН. Основная цель проекта — дать источник для проведения раз­личных лингвистических исследований, ориентированных на изучение изменений языковой системы в период перестройки и постперестройки. В 90-е гг. произошли существенные изменения в языке средств массо­вой информации, в политическом дискурсе, что оказало существенное влияние на художественную прозу, научный язык и пр.

Динамический корпус текстов как новая технология прикладной лин­гвистики. Как было показано выше, корпус текстов в идеальном случае должен удовлетворять критерию репрезентативности и в то же время быть существенно меньше проблемной области, которую он отражает. С другой стороны, репрезентативность корпуса прямо связана и с теми задачами, которые стоят перед исследователем. Сложность совмещения требований статистической репрезентативности и установок пользователя приводит к тому, что многие значительные по объему корпусы вообще не име­ют четких критериев отбора текстов. В проекте динамического корпуса текстов по современной публицистике была предложена такая страте­гия формирования, которая позволяет каждому пользователю получить для решения конкретной задачи из базового массива свое подмножество текстов. Базовый, исходный массив текстов, из которого осуществляется отбор, вместе с программным обеспечением называется динамическим корпусом текстов.

Получение репрезентативного корпуса текстов по публицистике представляет собой сложную задачу, поскольку количество периодических изданий огромно, а количество текстов, появляющихся даже в течение одного дня, с трудом поддается исчислению. Эти тексты пишет целая армия журналистов и аналитиков, да и сами тексты сильно отличаются как по форме, так и по тематике. Отдельной проблемой, которую мы здесь не затрагиваем, является определение понятия публицистического текста. При формировании массива авторская группа опиралась на ин­туицию: не включались чисто информативные тексты, краткие заметки, лишенные авторского взгляда на описываемое положение дел, и т. п.

Стратегия формирования исходного массива. В плане репрезентативно­сти основное внимание было обращено на выбор периодических изданий различной ориентации наиболее важных для общественного сознания в исследуемый период, и на соблюдение пропорции, учитывающей зна­чимость и популярность последних. Кроме того, вторым важным факто­ром организации корпуса был количественный критерий: текстов должно было быть достаточно много, чтобы отразить все релевантные свойства






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 298 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Стремитесь не к успеху, а к ценностям, которые он дает © Альберт Эйнштейн
==> читать все изречения...

4264 - | 4149 -


© 2015-2026 lektsii.org - Контакты - Последнее добавление

Ген: 0.007 с.