Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Требования к корпусу текстов с точки зрения пользователя




Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.

Репрезентативность. Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезен­тативностью понимается способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в кор­пусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатыва­емого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.

Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктура­ми, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.

Стремление к репрезентативности налагает определенные ограниче­ния на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с раз­витой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.

Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необхо­димым учесть стилистическую, временную, авторскую и другие составля­ющие текстового массива проблемной области.

Требование репрезентативности в самом простом варианте отража­ется в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке ча­стотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и эконо­мично использовать иллюстративные корпусы текстов.


Полнота. Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требова­ние полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой си­туации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.

Экономичность. Корпус текстов должен экономить усилия иссле­дователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может прово­диться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.

Структуризация материала. Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения харак­теризуются по тем параметрам, которые могут оказаться важными для

пользователя.

В ряде случаев на состав единиц хранения налагаются существен­ные ограничения. Если единицей хранения оказывается фрагмент тек­ста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным. Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, ме­стоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентирова­ны, например, на морфологическую или фонетическую инвентаризацию проблемной области.

Компьютерная поддержка. Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр.[24]






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 838 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Студент может не знать в двух случаях: не знал, или забыл. © Неизвестно
==> читать все изречения...

4910 - | 4422 -


© 2015-2026 lektsii.org - Контакты - Последнее добавление

Ген: 0.009 с.