Для того, чтобы оценить и измерить количество информации в соответствии с вышеизложенными аспектами применяются различные подходы и методы. Среди них выделяются статистический, семантический, прагматический и структурный. Исторически наибольшее развитие получил статистический подход.
Статистический подход изучается в обширном разделе кибернетики, называемом теорией информации. Его основоположником считается К. Шеннон, опубликовавший в 1948г. свою математическую теорию связи. Большой вклад в теорию информации до него сделали ученые Найквист и Хартли. В 1924 и 1928 годах они опубликовали работы по теории телеграфии и передаче информации. Признаны во всем мире исследования по теории информации российских ученых А.Н. Колмогорова, А.Я. Хинчина,
В.А. Котельникова, А.А. Харкевича и др.
К. Шенноном [45] было введено понятие количества информации как меры неопределенности состояния системы, снимаемой при получении информации.Количественно выраженная неопределенность состояния получила название энтропии по аналогии с подобным понятием в статистической механике. При получении информации уменьшается неопределенность, т. е. энтропия, системы. Очевидно, что чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьшается. При энтропии, равной нулю, о системе имеется полная информация, и наблюдателю она представляется целиком упорядоченной. Таким образом, получение информации связано с изменением степени неосведомленности получателя о состоянии этой системы.
До получения информации ее получатель мог иметь некоторые предварительные (априорные) сведения о системе Х. Оставшаяся неосведомленность и является для него мерой неопределенности состояния (энтропией) системы. Обозначим априорную энтропию системы Х через Н(Х). После получения некоторого сообщения наблюдатель приобрел дополнительную информацию I(X), уменьшившую его начальную неосведомленность так, что апостериорная (после получения информации) неопределенность состояния системы стала H'(X). Тогда количество информации I может быть определено как
I(X)=H(X)-H'(X)
Другими словами, количество информации измеряется уменьшением (изменением) неопределенности состояния системы.
Если апостериорная энтропия системы обратится в нуль, то первоначально неполное знание заменится полным знанием и количество информации, полученной в этом случае наблюдателем, будет
I(X)=H(X),
т.е. энтропия системы может рассматриваться как мера недостающей информации.
Если система Х обладает дискретными состояниями (т.е. переходит из состояния в состояние скачком), их количество равно N, а вероятность нахождения системы в каждом из состояний P 1, Р 2, Р 3 ,...,РN (причём, =1, и 1 ), то, согласно теореме Шеннона, энтропия системы Н(Х) равна
Здесь коэффициент KO и основание логарифма a определяют систему единиц измерения количества информации. Логарифмическая мера информации была предложена Хартли для представления технических параметров систем связи как более удобная и более близкая к восприятию человеком, привыкшем к линейным сравнениям с принятыми эталонами. Например, каждый чувствует, что две однотипные дискеты должны обладать вдвое большей емкостью, чем одна, а два идентичных канала связи должны иметь удвоенную пропускную способность [45].
Знак минус поставлен для того, чтобы значение энтропии было положительным, так как 1 и логарифм в этом случае отрицательный.
Если все состояния системы равновероятны, то есть = , ее энтропия
H (X) = - =
Энтропия Н обладает рядом интересных свойств. Вот некоторые из них.
1. H =0 только тогда, когда все вероятности , кроме одной, равны нулю, а эта единственная вероятность равна единице. Таким образом, H =0 только в случае полной определенности состояния системы.
2. При заданном числе состояний системы N величина H максимальна и равна , когда все равны.
Определим единицы измерения количества информации с помощью выражения для энтропии системы с равновероятными состояниями.
Пусть система имеет два равновероятных состояния, то есть N =2. Будем считать, что снятие неопределенности о состоянии такой системы дает одну единицу информации, так как при полном снятии неопределенности энтропия количественно равна информации H = I. Тогда
1= 2
Очевидно, что правая часть равенства будет тождественно равна единице информации, если принять KO = 1 и основание логарифма a =2. В общем случае, при N равновероятных состояний количество информации будет
I =
Эта формула получила название формулы Хартли и показывает, что количество информации, необходимое для снятия неопределенности о системе с равновероятными состояниями, зависит лишь от количества этих состояний.
Информация о состояниях системы передается получателю в виде сообщений, которые могут быть представлены в различной синтаксической форме, например, в виде кодовых комбинаций, использующих m -различных символов и n разрядов, в каждом из которых может находиться любой из символов. Если код не избыточен, то каждая кодовая комбинация отображает одно из состояний системы. Количество кодовых комбинаций будет
N = .
Подставив это выражение в формулу для I, получим
I = .
Если код двоичный, т.е. используется лишь два символа (0 или 1),то m =2 и I = n.
В этом случае количество информации в сообщении составит n -двоичных единиц.
Эти единицы называют битами. B inary dig it (bit)- двоичная цифра.
При использовании в качестве основания логарифма числа десять единицы измерения информации могут быть десятичными или дитами. Так как , то десятичная единица составляет примерно 3,33 бита.
Иногда удобно применять натуральное основание логарифма e. В этом случае получающиеся единицы информации называются натуральными или натами. Переход от основания a к основанию b требует лишь умножения на .
Введенная количественная статистическая мера информации широко используется в теории информации для оценки собственной, взаимной, условной и других видов информации. Рассмотрим в качестве примера собственную информацию. Под собственной информацией будем понимать информацию, содержащуюся в данном конкретном сообщении. А конкретное сообщение, как указывалось, дает получателю информацию о возможности существования конкретного состояния системы. Тогда количество собственной информации, содержащееся в сообщении Xi, определяется как
I(Xi)=- P(Xi)
Собственная информация имеет следующие свойства:
1.Собственная информация неотрицательна.
2.Чем меньше вероятность возникновения сообщения, тем больше информации оно содержит. Именно поэтому неожиданные сообщения так воздействует на психику человека, что содержащееся в них большое количество информации создает информационный психологический удар, иногда приводящий к трагическим последствиям.
3.Если сообщение имеет вероятность возникновения, равную единице, то информация, содержащаяся в нем равна нулю, т.к. заранее известно, что может прийти только это сообщение, а значит, ничего нового потребитель информации не получает.
4.Собственная информация обладает свойством аддитивности, т.е. количество собственной информации нескольких независимых сообщений равно сумме собственных информаций сообщений. Например, для собственной информации двух сообщений Xi и Yi может быть записано:
I (Xi, Yi)= - P (Xi) - P (Yi ) =I (Xi) +I (Yi).
Следует еще раз отметить, что статистический подход к количественной оценке информации был рассмотрен для дискретных систем, случайным образом переходящих из состояния в состояние, и, следовательно, сообщение об этих состояниях так же возникает случайным образом.
Кроме того, статистический метод определения количества информации практически не учитывает семантического и прагматического аспектов информации.
Семантический подход определения количества информации является наиболее трудно формализуемым и до сих пор окончательно не определившимся.
Наибольшее признание для измерения смыслового содержания информации получила тезаурусная мера, предложенная Ю.И. Шнейдером. Идеи тезаурусного метода были сформулированы еще основоположником кибернетики Н. Винером. Для понимания и использования информации ее получатель должен обладать определенным запасом знаний.
Если индивидуальный тезаурус потребителя SП отражает его знания о данном предмете, то количество смысловой информации IС, содержащееся в некотором сообщении, можно оценить степенью изменения этого тезауруса, произошедшего под воздействием данного сообщения. Очевидно, что количество информации IС нелинейно зависит от состояния индивидуального тезауруса пользователя, и хотя смысловое содержание сообщения постоянно, пользователи, имеющие отличающиеся тезаурусы, будут получать неодинаковое количество информации.
В самом деле, если индивидуальный тезаурус получателя информации близок к нулю. SП 0, то в этом случае и количество воспринятой информации равно нулю IС =0.
Иными словами, получатель не понимает принятого сообщения и, как следствие, для него количество воспринятой информации равно нулю. Такая ситуация эквивалентна прослушиванию сообщения на неизвестном иностранном языке. Несомненно, сообщение не лишено смысла, однако оно непонятно, а значит, не имеет информативности.
Количество семантической информации IС в сообщении также будет равно нулю, если пользователь информации абсолютно все знает о предмете, т.е. его тезаурус SП, и сообщение не дает ему ничего нового.
Интуитивно мы чувствуем, что между этими полярными значениями тезауруса пользователя существует некоторое оптимальное значение, SПопт, при котором количество информации IС, извлекаемое из сообщения, становится для получателя максимальным. Эта функция зависимости количества информации IС от состояния индивидуального тезауруса пользователя SП приведена на рис.1.4.
Тезаурусный метод подтверждает тезис о том, что информация обладает свойством относительности и имеет, таким образом, относительную, субъективную ценность. Для того, чтобы объективно оценивать научную информацию, появилось понятие общечеловеческого тезауруса, степень изменения которого и определяла бы значительность получаемых человечеством новых знаний.
Рис. 1.4. Зависимость
Прагматический подх о д определяет количество информации как меры, способствующей достижению поставленной цели. Одной из первых работ, реализующей этот подход, явилась статья А.А. Харкевича. В ней он предлагал принять за меру ценности информации количество информации, необходимое для достижения поставленной цели. Этот подход базируется на статистической теории Шеннона и рассматривает количество информации как приращение вероятности достижения цели. Так, если принять вероятность достижения цели до получения информации равным P0, а после её получения P1, то прагматическое количество информации IП определяется как
IП = .
Если основание логарифма сделать равным двум, то IП будет измеряться в битах, как и при статистическом подходе.
При оценке количества информации в семантическом и прагматическом аспектах необходимо учитывать и временную зависимость информации. Дело в том, что информация, особенно в системах управления экономическими объектами, имеет свойство стареть, т.е. ее ценность со временем падает, и важно использовать ее в момент наибольшей ценности.
Структурный подход связан с проблемами хранения, реорганизации и извлечения информации, и по мере увеличения объемов накапливаемой в компьютерах информации приобретает все большее значение.
При структурном подходе абстрагируются от субъективности, относительности ценности информации и рассматривают логические и физические структуры организации информации. С изобретением компьютеров появилась возможность хранить на машинных носителях громадные объемы информации. Но для ее эффективного использования необходимо определить такие структуры организации информации, чтобы существовала возможность быстрого поиска, извлечения, записи, модификации информационной базы.
При машинном хранении структурной единицей информации является один байт, содержащий восемь бит (двоичных единиц информации). Менее определенной, но так же переводимой в байты, является неделимая единица экономической информации – реквизит.
Реквизиты объединяются в показатели, показатели - в записи, записи - в массивы, из массивов создаются комплексы массивов, а из комплексов - информационные базы. Структурная теория позволяет на логическом уровне определить оптимальную структуру информационной базы, которая затем с помощью определенных средств реализуются на физическом уровне - уровне технических устройств хранения информации. От выбранной структуры хранения зависит такой важный параметр, как время доступа к данным, т.е. структура влияет на время записи и считывания информации, а значит и на время создания и реорганизации информационной базы.
Информационная база совместно с системой управления базой данных (СУБД) формирует автоматизированный банк данных.
Значение структурной теории информации растет при переходе от банков данных к банкам знаний, в которых информация подвергается еще более высокой степени структуризации.
После преобразования информации в машинную форму, ее аналитический и прагматический аспекты как бы уходят в тень, и дальнейшая обработка информации происходит по „машинным законам“ одинаковым для информации любого смыслового содержания. Информация в машинном виде, т. е. в форме электрических, магнитных и т.п. сигналов и состояний, носит название данных. Для того, чтобы понять их смысловое содержание, необходимо данные снова преобразовать в информацию (рис.1.5).
Преобразования „информация - данные“ производятся в устройствах ввода- вывода ЭВМ.
Рис. 1.5. Преобразование „информация-данные“