Для соотнесения объемов компьютерной информации с традиционными можно привести следующее соответствие: в 1 МБ можно хранить примерно 400 страниц неформатированного текста.
Для обработки нечисловой информации она должна быть закодирована или оцифрована, т. е. преобразована в числовую форму.
Текстовая информация
При хранении в компьютере любой текст рассматривается как линейная последовательность символов. Пробел, переход на следующую строку, переход на следующую страницу и т. д. рассматриваются как специальные символы. Каждому символу из этой последовательности ставится в соответствие конкретный двоичный код, состоящий из 8 двоичных разрядов. Таким образом, код каждого символа текста занимает один байт памяти. Следовательно, текст целиком занимает столько байт памяти машины, из скольких символов он состоит, включая все символы текста – пробелы, знаки препинания, знаки переходов и т. д.
Списки всех используемых при записи текстов символов и соответствующих им двоичных кодов образуют кодовые таблицы. На практике применяют различные кодовые таблицы. Наиболее часто используется кодовая таблица ASCII (American Standart Code for Information Interchange – стандартный американский код для обмена информацией). Всего в ней зафиксированы коды для 128 различных символов. Но один байт может содержать 256 различных двоичных кодов, состоящих из 8 бит. Таким образом, в стандарте ASCII задействована только половина возможных кодов. Имеются различные расширения основной кодовой таблицы ASCII, в которых задаются коды еще для 128 символов, в том числе и для символов различных национальных алфавитов.
Знать кодовую таблицу наизусть не нужно. Все необходимые преобразования от символов к их кодам и назад – от кодов к символам – производятся машиной автоматически.
Существует много различных кодовых таблиц, и различные программы используют для записи текстов различные кодовые таблицы. А в различных кодовых таблицах один и тот же код соответствует разным символам. Следовательно, текст, записанный какой-либо программой в одной кодовой таблице, может быть полностью искажен при его чтении с помощью другой программы.
Существование большого количества кодировочных таблиц объясняется следующим: если учесть все возможные буквы, встречающиеся в национальных алфавитах европейских стран, все возможные символы, которые встречаются в математических и других специальных текстах, в алфавитах азиатских языков, то 256 символов окажется мало.
В последнее время все шире используется кодовая таблица UNICODE (UNIversal CODE – универсальный код), в которой для кода одного символа отводится 2 байта, а не один. Недостаток: требуется в два раза больше места в памяти, чем при записи в однобайтных кодировках. Но в связи с тем, что память становится все более и более дешевой, этот недостаток становится все менее значимым. Преимущество: с помощью 2 байтов, т. е. 16 разрядов, можно закодировать 216 = 65536 различных символов, а не 256. такого количества различных символов вполне достаточно для того. Чтобы представить практически все встречающиеся символы.
Графическая информация
Под графической информацией понимается рисунок, чертеж, фотография, картинка в книге, изображение на экране телевизора и т. д. рассмотрим в качестве примера изображение на экране телевизора. Это изображение состоит из некоторого количества горизонтальных линий – строк. А каждая строка в свою очередь состоит из элементарных мельчайших единиц изображения – точек, которые называются пикселами (picsel – PICture’S Element – элемент картинки). Весь массив элементарных единиц изображения называют растром (лат. Rastrum – грабли). Степень четкости изображения зависит от количества строк на весь экран и количества точек в строке, которые представляют разрешающую способность экрана или просто разрешение.
Монохромное изображение – изображение, состоящее из любых двух контрастных цветов – черного и белого, зеленого и белого, коричневого и белого и т. д. каждый пиксел изображения может иметь либо один, либо другой цвет. Поставив в соответствие первому цвету двоичный код «0», а второму – код «1» (либо наоборот), можно закодировать в одном бите состояние одного пиксела монохромного изображения.
Однако, полученное таким образом изображение будет чрезмерно контрастным. Реальное, например, черно-белое изображение состоит не только из белого и черного цветов. В него входят множество различных промежуточных оттенков – серый, светло-серый, темно-серый и т. д. Если кроме белого и черного цветов использовать только две дополнительные градации, то для того чтобы закодировать цветовое состояние одного пиксела, потребуется уже два бита.
Общепринятым, дающим реалистичные монохромные изображения, считается кодирование состояния одного пиксела с помощью одного байта, которое позволяет передавать 256 различных оттенков серого цвета от полностью белого до полностью черного.
Цветное изображение может формироваться различными способами. Один из них – метод RGB (от слов Red, Green, Blue –красный, зеленый, синий), который опирается на то, что глаз человека воспринимает все цвета как сумму трех основных цветов – красного, зеленого и синего. Для получения цветного пиксела в одно и то же место экрана направляется не один, а сразу три цветных луча. Для упрощения будем считать, что для кодирования каждого из цветов достаточно одного бита. «0» в бите означает, что в суммарном цвете данный основной отсутствует, а «1» - присутствует. Следовательно, для кодирования одного цветного пиксела потребуется 3 бита. При такой схеме кодирования каждый пиксел может иметь один из 8 возможных цветов. Если же каждый из цветов кодировать с помощью одного байта, то появится возможность передавать по 256 оттенков каждого из основных цветов. А всего в этом случае обеспечивается передача 256 Х 256 Х 256 = 16777216 различных цветов, что достаточно близко к реальной чувствительности человеческого глаза. Этот способ представления цветной графики принято называть режимом True Color (true color – истинный цвет) или полноцветным режимом.
Существуют и другие полноцветные режимы кодирования цветного изображения. Они требуют очень много памяти. В целях экономии памяти разрабатываются различные режимы и графические форматы, которые немного хуже передают цвет, но требуют гораздо меньше памяти. В частности, режим High Color (high color –богатый цвет), в котором для передачи цвета одного пиксела используется 16 битов и, следовательно, можно передать 65535 цветовых оттенков.
При записи изображения в память компьютера кроме цвета отдельных точек необходимо фиксировать много дополнительной информации – размеры рисунка, яркость точек и т. д. Конкретный способ кодирования всей требуемой при записи изображения информации образует графический формат. Форматы кодирования графической информации, основанные на передаче цвета каждого отдельного пиксела, из которого состоит изображение, относят к группе растровых или BitMap форматов (bit map – битовая карта). Наиболее известными растровыми форматами являются BMP, GIF и JPEG форматы.
Растровая графика обладает существенным недостатком – изображение, закодированное в одном из растровых форматов, очень плохо масштабируется. Поэтому были разработаны методы векторной графики. В векторной графике базовым объектом является линия. При этом изображение формируется из описываемых математическим, векторным способом отдельных отрезков прямых или кривых линий, а также геометрических фигур – прямоугольников, окружностей и т. д., которые могут быть из них получены.