Кодирование речи

Речь формируется с помощью возбуждения акустической трубы, называемой голосовым трактом. Голосовой тракт начинается от голосовой щели и оканчивается губами. «Огласованные» звуки (например, «а» и «е») образуются вследствие колебания голосовых связок, которые вырабатывают квазипериодическую последовательность импульсов воздушного потока, возбуждающую голосовой тракт. Вот почему огласованные звуки речи по своей природе являются периодическими. И несмотря на то, что огласованный звук может иметь сходство со случайным шумом, достаточно наличия даже слабых импульсов для обнаружения периодической природы звука. Это именно та структура (или образ) которая выделяется вокодерами и затем используется для цифрового представления речи. Частота следования этих импульсов называется основным тоном речи.

Неогласованные звуки (например, «S» и «F») образуются благодаря смыканию голосового тракта и продавливанию воздушного потока через область смычки. В области смычки возникает турбулентный воздушный поток, создающий шумоподобное возбуждение голосового тракта. Вот почему неогласованные звуки очень похожи на случайный шум. Действительно, генераторы случайного шума можно использовать для восстановления неогласованных звуков.

Эти источники обеспечивают широкополосное возбуждение голосового тракта. Для моделирования голосового тракта можно воспользоваться фильтром с медленно меняющимися во времени параметрами, который подстраивает свои частотные характеристики под спектр сигнала возбуждения. При этом цифровой фильтр будет стремиться так изменить свои коэффициенты, чтобы как можно точнее отразить параметры голосового тракта.

Речевые кодеры называются «вокодерами» (от англ. voice - голос, coder - кодировщик). Вокодеры отображают речевые сигналы в соответствии с математической моделью голосового тракта человека. Вместо передачи текущих квантованных отсчетов сигнала речевой кодер передает параметры модели. Декодер вводит принятые параметры в математическую модель и генерирует сигнал, подобный исходному речевому сигналу. Процесс определения параметров модели называется анализом, а процесс воспроизведения речи по выбранным параметрам называется синтезом.

Качество вокодерного звука значительно изменяется в зависимости от входного сигнала, поскольку вокодеры основаны на модели голосового тракта. Сигналы от источников, не совпадающих с моделью, могут кодироваться плохо, и результатом воспроизведения будет сигнал очень низкого качества.

Вокодеры предполагают, что источники возбуждения и состояние голосового тракта относительно независимы. Изображенная на рисунке структурная схема представляет именно такой вокодер. Фильтр с переменными во времени параметрами моделирует голосовой тракт. Однако голосовой тракт изменяет свое состояние довольно медленно. Поэтому резонно предположить, что фильтр является инвариантным (т.е. не меняющимся) для коротких периодов времени (например, 12 мс). Огласованные звуки создаются периодическим возбуждением, на которое накладывается частотные характеристики модели голосового тракта. Источником возбуждения для формирования неогласованных звуков является генератор случайных чисел, а частотные характеристики модели голосового тракта накладываются, как и в первом случае. Всякий раз модель голосового тракта (фильтр) может накладывать различные частотные характеристики на источник возбуждения.

Чтобы лучше понять, как работают вокодеры, в дальнейшем мы рассмотрим базовую конструкцию самого раннего вокодера - полосового (или канального) вокодера, который широко используется до сих пор.

Кодирование речи - вокодеры