Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Основные области приложения структурно-вероятностной модели языка




Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать

10)Данные о частотности приводятся по корпусу текстов по современной публицистике (отдел экспериментальной лексикографии Института русского языка РАН).

оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д. (см. подробнее §4 главы 5).

Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. деши-Фровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.

Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста [Виноградов 1961]. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстетические; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства современников); в) историко-идеологические и сопоставительно-идеологические; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.

Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей11).

Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур [Севбо 1981], а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также

11)Такой метод авторизации предложен в ряде работ М. В. Марусенко: [Марусенко 1990; Марусенко 1996].

оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996]. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.

 





Поделиться с друзьями:


Дата добавления: 2016-11-18; Мы поможем в написании ваших работ!; просмотров: 733 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

80% успеха - это появиться в нужном месте в нужное время. © Вуди Аллен
==> читать все изречения...

2823 - | 2734 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.011 с.