Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Построение роботов-поисковиков и снифферов




Самый простой вариант применения статистической линг­вистики — это создание робота-странника, который в режиме

5 Заказ 105


 


автопилота будет лазать по ссылкам в html-документах и искать необходимого человека, анализируя тексты. В усложненном ва­рианте можно построить систему автоматического слежения за сообщениями в html- или irc-чатах. Программа будет нацелена на отслеживание всех переговоров (дифференцируя их по учас­тникам), анализ текстов и поиск заданных объектов. Хакер мо­жет запросто сменить IP-адрес, зайти под другим эккаунтом или ником, но изменить свой лексикон вряд ли догадается. Впрочем, подобная система легко сбивается с толку. В более продвинутых технологиях могут создаваться или сниффер, ана­лизирующий проходящие пакеты, или вирус-шпион, путеше­ствующий по компьютерам и анализирующий тексты для выяв­ления заданного автора сообщений.

Построение роботов-автоответчиков

 

Имея готовую матрицу рассчитанных марковостей с поряд­ком как минимум выше пятого, можно построить подобие авто­ответчика. Генерируется псевдослучайная последовательность с большим периодом, например, при использовании математи­ческого аппарата конечных полей Галуа. С помощью случайной последовательности матрица марковостей обращается вспять, т.е., используя значение выброшенного последовательностью случайного числа, статистический вес (вероятность появления того или иного символа, взятого из матрицы) и предысторию символа, можно высчитывать следующий символ сообщения. Такое случайное моделирование на выходе выдает осмыслен­ный текст. Уже вполне осмысленный текст получается при об­ращении марковости четвертого порядка. Среднее количество символов в словах русского языка равно восьми, и марковости шестого порядка вполне достаточно для генерации осмыслен­ного текста. Для построения программного робота, способного к диалогу, нужно усложнить анализ введением расчета корреля­ций (или зависимостей, выражаясь обиходным языком). Про­изводится расчет корреляций в зависимости от отклика челове-


 


ка на задаваемые ему фразы. Или берется литературное произ- ведение, изобилующее диалогами, и рассчитываются корреля­ции в потоках сообщений вопрос — ответ. Программный робот обучается диалогу. Это можно применить для эмуляции присут­ствия в html-чате, ire-цепях или ICQ. Так что следует критичес­ки отнестись к тому, что собеседник выдает осмысленные, но бестолковые ответы: возможно, вы разговариваете с хорошо по­строенным роботом. Чтобы проверить это предположение, можно повторить вопрос, заданный собеседнику. Программа обычно зацикливается и начинает, как попугай, повторять одно

и то же в ответ на один и тот же вопрос.

■ ■ '■ ■

■■■■■.■■ '

.■■■■'

■■'■■■■■'■'■'■......; ■..

| ■. ■' ■ ■■ ■:

: ' '-.,■>:

■'...:


ЗАКЛЮЧЕНИЕ

:,'.

Тенденции развития и совершенствования компьютерных технологий свидетельствуют о широком применении их в раз­личных областях человеческой деятельности. Цель настоящего учебного пособия — обучить студентов эффективно применять на практике возможности информационных технологий, в том числе сети Интернет. Особенностью данного пособия является использование современных программных продуктов в области обработки лингвистических данных. В результате изучения сту­денты смогут самостоятельно пользоваться различными про­граммами в этой области, а в дальнейшем установить новые программы на компьютер и изучить их возможности.

Данное пособие не исчерпывает всей сложности проблем в такой новой области знаний, как компьютерная лингвистика. Изучение этой науки тесно связано с исследованиями в области искусственного интеллекта. На этом пути предстоит сделать еще много открытий. Спектр приложений компьютерной линг­вистики простирается от простейших программ обработки тек­ста, транслитерации, проверки правописания и других до таких сложных, как программы автореферирования, поисковые сис­темы, программы машинного перевода, программы распозна­вания и синтеза речи, психолингвистические программы, сис­темы обработки естественного языка с использованием техно­логий нейронных сетей.


 


ПРИЛОЖЕНИЕ

:■-.,





Поделиться с друзьями:


Дата добавления: 2016-10-30; Мы поможем в написании ваших работ!; просмотров: 544 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Студенческая общага - это место, где меня научили готовить 20 блюд из макарон и 40 из доширака. А майонез - это вообще десерт. © Неизвестно
==> читать все изречения...

2389 - | 2339 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.011 с.