Latent Dirichlet allocation

Фрактальный подход к проблеме определения количества тем в тематическом моделировании

Выпускная квалификационная работа - МАГИСТЕРСКИЙ ПРОЕКТ

по направлению подготовки 38.04.01 «Экономика»

магистерская программа «Прикладная экономика и математические методы»

Рецензент д-р …. наук, проф. ___________________ И.О. Фамилия

Научный руководитель канд. физ.-мат. наук, доцент Департамента прикладной математики и бизнес-информатики Санкт-Петербургской школы экономики и менеджмента НИУ ВШЭ С.Н. Кольцов Консультант д-р …. наук, проф. ____________________ И.О. Фамилия

Санкт-Петербург – 2016

Фракталы вокруг нас повсюду: и в очертаниях

гор, и в извилистой линии морского берега. Неко-

торые из фракталов непрерывно меняются, подобно

движущимся облакам или мерцающему пламени, в

то время как другие, подобно деревьям или нашим

сосудистым системам, сохраняют структуру, приоб-

ретенную в процессе эволюции.

Х.О. Пайтген и П.Х. Рихтер

Введение является важной частью работы. По его содержанию определяются научные или проектные интересы студента, степень углубленности в выбранную тематику, степень проработанности источников или изучения состояния дел в рассматриваемой области практической деятельности. Текст введения должен включать следующие содержательные элементы:

аргументация актуальности выбранной темы;

· цель (цели) и задачи исследования или проекта;

· предмет и объект исследования/проекта,

· согласованные с темой;

· описание структуры работы, а также основных источников из представленных в списке, либо основных компонентов рассматриваемой области деятельности.

· Необходимо выделить оригинальность работы и ее новизну либо практическую ценность.

1.1. Основная часть магистерской диссертации должна включать не менее 3-х глав. Как правило, первая глава носит постановочный характер и содержит обзор литературы по теме, обосновывая степень разработанности проблемы, ее новизну, актуальность и реализуемость, а также (опционально) обзор вида деятельности и его основных характеристик в рассматриваемом географическом субъекте, сегменте рынка, и т.д.

Вторая содержит обоснование выбранных методов решения проблемы или реализации проекта;

1.3. третья глава должна содержать результаты эмпирического исследования либо описывать процесс реализации прикладной интервенции и её результаты.

Сначала чем занимается соц исследования. Литература. при выявлении проблемы, переходить к фракталам.

Исследование больших интернет данных ставит

перед социологами ряд новых задач. Во-первых, это

проблема больших данных (big data), которая

требует применение достаточно сложных

математических алгоритмов, во-вторых, социологи

должны заниматься переосмысливанием границ

объектов и выбором единиц анализа, с учетом

математической модели. Одной из таких моделей,

которая начиная с недавнего времени, стала активно

использоваться в повседневном социологическом

анализе, является тематическое моделирование [3].

Тематическое моделирование (topic modeling)

позволяет производить нечеткую кластеризацию

документов по темам, соответственно именно

тематическое многообразие становится в фокусе

социологического анализа данной работы.

В компьютерной лингвистике под темой

понимается совокупность общих слов в текстах,

которые имеют тенденцию встречаться совместно в

одних и тех же текстах. Такая интерпретация темы,

позволяет сформулировать лингвистическую

модель генерации контента документов коллекции,

и на основании модели разработать алгоритм

вычисления распределения документов и слов по

темам. На данный момент разработано множество

различных вариантов тематических моделей (Latent

Dirichlet Allocation, LDA), однако они базируются

на двух основных вариантах:

- Вариационная модель [4].

- Сэмплирование Гиббса [5].

В LDA предполагается, что существует конечное

множество тем T и коллекция документов

порождается дискретным распределением p (d, w, t),

где d - документ, w - слово, t - тема. Переменные d и

w являются наблюдаемыми переменными, а

переменная t — скрытой, т. е. появление каждой

пары (d,w) связано с некоторой неизвестной темой t.

Построить тематическую модель коллекции —

означает найти множество скрытых тем T, условные

распределения p(w| t) ≡ φ(w,t) для каждой темы t и

p(t | d) ≡ θ(t,d) для каждого документа d.

В рамках данной работы использовалась

процедура сэмплирования Гиббса [5] для

нахождения распределений документов и слов по

темам по заданной коллекции документов. Выбор

данной методики обусловлен вычислительной

простотой.

На данный момент существует множество

различных программных средств для проведения

тематического моделирования [6]. Однако, как

показывает анализ этих средств [13] существующим

программным средствам присущи следующие

недостатки:

1. Программное обеспечение дает лишь

вычислительное ядро с тем или иным форматом

ввода и вывода данных.

2. Отсутствуют методы препроцессинга данных

для русского языка, который включал бы в себя

очистку текста, лематизацию, формирование списка

стоп слов и удаление стоп слов. Следовательно эти

работы пользователь должен делать сам.

3. В целом отсутствуют готовые решения для

анализа данных.

4. Развертывание больших систем требует

создание вычислительного кластера, соответственно

возникает проблема технической поддержки этого

кластера.

5. Работа с такими пакетами требует

специфичных навыков программирования. Исходя

из этого в качестве инструмента для проведения

тематического моделирования новостей по тематике

электронного правительства и электронных услуг,

был выбран программный продукт Topic Miner,

разработанный в Санкт-Петербургском кампусе

НИУ ВШЭ (разработчики С.Н. Кольцов, В.Г.

Филипов) [7, 13]. Topic Miner – это

информационная система, предназначенная для

проведения тематического моделирования на

больших массивах текстовых данных.

Тематическое моделирование является

обобщением кластерного анализа, поэтому оно

унаследовало и основные недостатки кластерного

анализа. Определение количества кластеров – одна

из серьезных проблем в кластерном анализе и

смежных методах деления объектов на группы.

Существует множество методов оценки качества

кластеризации, которые можно использовать для

сравнительной оценки кластерных решений с

разным количеством кластеров в решениях. Однако

проблема в том, что такого рода функции качества

монотонно или почти монотонно изменяются с

изменением количества кластеров, и если имеют

перегиб или скачок, то едва заметный и не

определяемый «на глаз».

Для решения этой проблемы, в рамках

кластерного анализа, существует непара-

метрический метод из Distortion Theory [9], который

позволяет трансформировать функцию качества

кластерного решения так, чтобы перегиб или скачок

стал явно видимым. Метод основан на

использовании понятия «искажений» (distortion),

которые являются оценками дисперсии внутри

класса (кластера). В основе такого метода лежит

оценка скорости изменения внутрикластерного

(межкластерного) расстояния как функции от

количества кластеров. Данный метод хорошо себя

зарекомендовал в различных задачах кластерного

анализа [10, 11]. Однако применение этого метода

для тематического моделирования требует замены

внутрикластерного расстояния на величину,

которая бы хорошо характеризовала процесс

тематического моделирования.

Одной из наиболее распространенных мер

качества тематического моделирования является

perplexity. Под этим понятием подразумевается

следующая величина. Перплексити это обратная

величина среднегеометрической вероятности слова

принадлежности слова к темам. Данная величина

показывает то насколько модель, заложенная в

LDA, хорошо описывает распределения, скрытые в

коллекции документов [12]. Чем меньше величина

перплексити тем лучше (неоднороднее) модель

LDA и тем сильнее отличие модели от начального

однородного распределения. Перплексити меняется

от единицы до нуля, и по сути, является аналогом

внутрикластерного расстояния. В нашем

исследования для вычислении оптимального

количества тем мы использовали теорию скачков

[9], в которой в виде функции характеризующую

качество тематического моделирования в

зависимости от количества тем использовали

перплексити.

Исходные данные. В рамках данной работы для

анализа было использовано 3444 документов, в

которых число уникальных слов составляет 562.

Каждая тема характеризуется набором наиболее

вероятностных слов. Каждый документ включает

следующие метаданные:

- название текста и его содержимое (текст

статьи или сообщения СМИ);

- ссылка на первоисточник (URL документа);

- дата публикации.

В качестве входных данных использовались

следующие параметры: α=0.5, β=0.1. Число тем

варьировалось от 16 - 80 тем с шагом 8.

В качестве результатов тематического

моделирования были получены две матрицы (для

каждого тематического решения): (а) матрица

распределения слов по темам; (б) матрица

распределения документов по темам, и кривые

перплексити.

Определение оптимального количества тем

производилось следующим образом. Для заданной

коллекции документов, проводилась серия

тематических моделирований, в которых

варьируемым параметром служила величина

перплексити. В качестве окончательной величины

бралось значение после 200 итерации, так как 200

итераций было достаточно для сходимости модели.

Применение теории скачков для набора

тематических моделей на основе перплексити

показало, что оптимальным тематическим

решением является 56 тем. Именно это

Latent Dirichlet allocation

Основное предположение тематической модели Latent Dirichlet Allocation состоит в том, что каждый документ с некоторой вероятностью может принадлежать множеству тематик. Тема эта совокупность слов, где каждое слово имеет некоторую вероятность принадлежности к данной тематике.