Лекция 2. Выбор параметров оцифровки. Информационная емкость сообщений
Курс “Теория информации и кодирования”

Здесь будут рассмотрены теоретические вопросы выбора основных параметров оцифровки непрерывных зависимостей - дискретизации по времени и квантования по амплитуде. Кроме того мы познакомимся с подходами к определению информационной емкости сообщений и их кода, единицами измерения количества информации.

Предпосылки выбора параметров оцифровки
Выбор частоты дискретизации по времени
Выбор параметров квантования амплитуд
Определение количества информации


2.1 Предпосылки выбора параметров оцифровки

Временная и спектральная форма непрерывных сообщений
При выборе частоты дискретизации непрерывных сообщений обычно учитываются их спектральные характеристики. Рассмотрим этот аспект подробнее - рис.2.1: .
  • непрерывное сообщение представимо в двух принципиально различных, но взаимосвязанных формах — временной и частотной. На рисунке наглядно видно, что сложную непрерывную зависимость можно представить как наложение нескольких простых гармонических колебаний с разными частотами и амплитудами. Здесь мы как бы выбираем один из двух ракурсов, в котором рассматривается единый процесс. Одному из них соответствует привычная для нас временная диаграмма (на рисунке справа), а другому - спектральная диаграмма (слева);
  • поскольку временная и спектральная диаграммы отражают стороны одного процесса, они взаимно обусловлены и по каждой из них можно построить противоположную. Такие взаимные переходы называются спектральными преобразованиями;
  • применение спектральных преобразований позволяет выбирать именно ту форму, которая в данных обстоятельствах удобнее. Например, используя спектр звука, удобно воздействовать на определенные частоты.
    При этом восстановленная временная зависимость даст уже измененное звучание.

С точки зрения оцифровки непрерывных сообщений важно учитывать максимальную частоту fmax, присутствующую в спектре, поскольку ей отвечают наиболее крутые участки временной диаграммы, требующие максимально частых отсчетов амплитуды. На практике в качестве fmax фиксируют частоту, для которой соответствующая амплитуда существенна. При этом разного рода высокочастотные “дребезги”, которые не несут информации, отсекаются.

Примеры спектров показаны на рис.2.2:
  • на рис.2.2а отображен спектр музыкального аккорда. Здесь звучание отдельных нот выделяется пиками, каждому из которых отвечает своя частота (высота тона) и сила звучания (амплитуда);
  • на рис.2.2б показан спектр, который образуется наложением базовых цветов RGB. Тут частоты, которые отвечают серединам диапазонов базовых цветов составляют соответственно 440, 560 и 640 ТГц (Терагерц - 1012 Гц). Отметим, что в ряде случаев при изображении спектров в качестве независимой переменной принимают не частоту, а обратно пропроциональную ей длину волны. В примере на рис.2.2б при таком подходе «пики» красного и голубого цветов на рисунке поменялись бы местами.

Использование показательной и логарифмической мер
При анализе квантования амплитуд следует учесть некоторые универсальные закономерности (рис.2.3):
  • для природных процессов характерны чрезвычайно широкие диапазоны изменения величин. При этом для разных областей таких диапазонов характерно проявление различных закономерностей. Можно привести пример размеров физических объектов, а также подобные примеры, для температур, давления, частот электромагнитных колебаний и т.д. ;
  • в этих условиях широко используется показательная мера y=mх, в частности, при m=10 (рис.2.3а), а также m=2 и m=e (e ≈ 2,718 – константа Эйлера). Показательной функции y=mх соответствует обратная ей логарифмическая функция x = logmy (при этом распространенным значениям основания m отвечают особые записи функции логарифма — lg для m=10 и ln для m=e);
  • органы чувств человека также способны воспринимать широчайшие диапазоны внешних воздействий. В частности, минимальные и максимальные по мощности значения зрительных и звуковых сигналов различаются в миллиарды раз. При этом уровень восприятия оказывается пропорциональным логарифму интенсивности стимула (эмпирический закон Вебера-Фехнера в физиологии) — рис.2.3б;
  • итак, использование показательных и логарифмических зависимостей объективно обусловлено. При этом оно дает преимущество как в компактности записи, так и в простоте операций над величинами (например, как известно, при операциях с логарифмами умножение заменяется сложением).

Дополнительно: Мера децибел
Познакомимся с единицей измерения децибел, которая базируется на логарифмической зависимости и широко используется для оценки громкости звука, а также при анализе передачи сигналов (рис.2.4):
  • единицу децибел (дБ) применяют для оценки соотношения параметров физической величины с некоторыми базовыми значениями. Например, для звука — это соотношения его громкости с порогом слышимости. Для так называемых “энергетических” величин (например, для мощности, а по отношению к звуку для громкости) оценка в децибелах определяется по формуле D = 10lgPx/P0 , где P0 – базовое значение. Так, громкость звука 40дБ в 104 раз больше, чем порог слышимости (10 lg104 = 40). Как видно, рост мощности в 10 раз здесь соответствует увеличению D на 10 дБ (Отметим, что единица дБ безразмерна);
  • до сих пор, говоря о звуковых колебаниях, мы подразумевали изменение их амплитуды u (например, амплитуды напряжения на выходе микрофона). По отношению к звуку амплитуда пропорциональна величине звукового давления, а громкость — его квадрату. Аналогично, мощность электрического сигнала P пропроциональна кварату напряжения U. (В отличие от “энергетических” величин второго порядка соответствующие величины первого порядка принято называть “силовыми”). Учитывая такую квадратичную зависимость, преобразуем исходную формулу: D=10lgPx/P0 = 10lgUx2/U02 = 20 lgUx/U0. Теперь для случая D=40дБ получим 40 = 20lgUx/U0 = 20lg102. Таким образом 40дБ соответствует амплитуда звукового сигнала в 100 раз большая минимального значения;
  • использование единицы децибел дает ряд важных преимуществ. Так, логарифмический масштаб обеспечивает удобство работы с большими величинами (например, вместо того, чтобы оценивать звук, как в 1000000 раз более громкий по сравнению с порогом слышимости, мы просто укажем, что его громкость D=60дБ). Кроме того, усиление и ослабление сигнала теперь просто имеют разный знак (например, D=-10дБ означает, что мощность сигнала уменьшена в 10 раз).

Контрольные вопросы:
1) Поясните понятие спектра и взаимосвязь временного и частотного представлений.
2) Поясните примеры спектров, показанные на рис.2.2.
3) Какой параметр спектра наиболее важен для дискретизации непрерывного сообщения
4) Запишите общие формулы показательной и логарифмической зависимостей. Какие величины оснований и формы записи логарифмов используются наиболее часто.
5) Опираясь на рис.2.3, сформулируйте закон восприятия сигналов органами чувств. Почему в этом разделе уместно было его привести
6) Что представляет собой единица измерения децибел и для чего она используется.
7) Запишите формулы для соотношения энергетических и силовых величин в децибелах. Приведите примеры расчета.


2.2 Выбор частоты дискретизации по времени

Подходы к выбору частоты дискретизации
Как мы уже знаем, выбор частоты дискретизации для непрерывных сообщений должен исходить из максимальной частоты изменения физической величины (сигнала), которая в них присутствует. При этом необходимо учитывать следующие моменты (рис.2.5):
  • частотный состав для разных сообщений может существенно различаться. Поэтому при выборе частоты дискретизации ориентируются не на индивидуальные свойства сообщений, а на характеристики их источника, которые остаются неизменными. Такой подход на практике используется для обработки сигналов от специализированных технических устройств (например, датчиков, чьи сигналы имеют стабильные характеристики);
  • в случае оцифровки звука привязка к его источнику породила бы множество вариантов частоты дискретизации, что неприемлемо для стандартного решения. Здесь необходимо привести все источники сообщений «к общему знаменателю» с позиций частотных характеристик. И точкой отсчета могут быть свойства человеческого восприятия — по сути, требования прриемника сигналов;
  • для всех звуковых сообщений общим ограничителем являются возможности человеческого слуха, который не воспринимает частоты выше 20 кГц (это довольно приблизительная оценка, но именно на нее принято опираться). Для случая речи ориентируются на частоту, которая позволит понимать содержание разговора (так называемая частота слоговой разборчивости). По результатам широких экспериментов связистов такая частота принята на уровне примерно 3 кГц (в Европе 3,4 кГц, а в США 2,9 кГц). Очевидно, что снижение частоты дискретизации для речи дает существенную экономию в объеме ее цифрового кода, что важно с учетом размеров именно речевого трафика.

Правило выбора частоты дискретизации и его применение для звука
Теперь необходимо выяснить зависимость частоты дискретизации fd от частоты fmax.
Широко используется простое правило для решения этой задачи (рис.2.6): Частоту дискретизации следует выбирать вдвое большей по сравнению с максимальной частотой, присутствующей в исходной непрерывной зависимости: fd = 2 fmax.
Данное правило связано с именами специалистов, которые его обосновали - американца Гарри Найквиста и Владимира Котельникова из СССР;
На практике частота дискретизации берется с некоторым запасом (обычно с коэффициентом 1,1-1,2). Ниже мы выясним, что такой запас необходим и с точки зрения строгого теоретического обоснования;
На основе этого правила и с учетом запаса приняты стандарты частоты дискретизации для звука:
  • в случае звука от произвольных источников (ограничения слуха) fd = 2х1,1х20 = 44 кГц;
  • в случае речи (ограничения разборчивости) fd = 2х1,18х3,4 = 8 кГц.

Дополнительно: Теорема Котельникова
Правило выбора частоты дискретизации (Найквиста-Котельникова) теоретически обосновывается теоремой Котельникова о возможности точного восстановления исходного сигнала по его дискретным отсчетам - рис.2.7:

Любая непрерывная зависимость (аналоговый сигнал) может быть восстановлена с какой угодно точностью по своим дискретным отсчётам, взятым с частотой fd > 2 f max.

При этом теорема дает математическую процедуру восстановления (формула Котельникова – рис.2.7):
  • анализ формулы Котельникова показывает, что исходная зависимость u(t) здесь восстанавливается суммированием дискретных отсчетов, взятых с шагом дискретизации Δt, каждый из которых умножается на специальную колебательную функцию. В результате может быть получена сглаженная кривая, совпадающая с исходной;
  • однако, формула показывает и ограничения такого подхода: суммирование должно вестись на бесконечном множестве отсчетов, при этом “хвосты” колебательных функций также распространяется в бесконечность. На практике к этому добавляется сложность технической реализации «идеальных» функций Котельникова;
  • между тем, в технической реализации перечисленные выше ограничения могут быть компенсированы просто некоторым увеличением частоты дискретизации (на те самые 10-20%, о которых шла речь выше). Так и поступают на практике;
  • добавим, что совершенно точное восстановление исходной зависимости все равно оказывается практически невозможным, поскольку дискретные отсчеты еще и квантуются по уровню. Но необходимая точность всегда может быть достигнута (в частности, за счет выбора шага Δu, о котором пойдет речь ниже).

Контрольные вопросы
1) Как выбирается максимальная частота при оцифровке сигналов от датчиков. Чем это обусловлено.
2) Почему при выборе частоты дискретизации звука принято ориентироваться не на частотные характеристики его источников, а на параметры слуха.
3) Какая максимальная частота звука учитывается при оцифровке его произвольных источников и при оцифровке речи. Чем обусловлен выбор этих параметров.
4) Сформулируйте правило Найквиста-Котельникова выбора частоты дискретизации.
5) Как связаны стандартные частоты оцифровки звука от произвольных источников и оцифровки речи с применением правила Найквиста-Котельникова.
6) Сформулируйте теорему Котельникова о выборе частоты дискретизации. Поясните процедуру восстановления непрерывной зависимости по рис.2.7.
7) В чем проявляются ограничения использования теоретического подхода к восстановлению непрерывных сигналов. Как эти ограничения учитываются на практике.


2.3 Выбор параметров квантования амплитуд

Общие подходы к выбору параметров квантования
К основным параметрам квантования амплитуд относятся шаг квантования Δu и количество уровней квантования N. Последнее связано с разрядностью кода n (рис.2.8). При этом:
  • первоначальными данными для определения этих параметров служат допустимая погрешность квантования δuдоп и диапазон изменения квантуемой величины Umax — Umin. Исходя из них можно определить минимально необходимое количество уровней Nmin = (Umax — Umin)/δuдоп. Например, если диапазон квантуемой величины составляет от +5В до -5В, а допустимая погрешность 0,1 В, то минимальное число уровней будет 10/0,1=100;
  • квантуемая величина представляется двоичным кодом, так что количество уровней N должно быть кратно степени двойки (разумеется, превышая при этом значение Nmin). В нашем примере это будет 27=128, что соответствует минимально допустимой разрядности кода nmin=7. Тот же результат можно получить несколько иначе: исходя из значения Nmin требуемое число двоичных разрядов nmin = round(log2Nmin) - с округлением до целого в большую сторону;
  • на практике разрядность кода уточняется с учетом требований технической реализации. В частности, квантование (алфавитно-цифровое преобразование) выполняется микросхемами АЦП, разрядность которых может быть 8, 10, 12 или 16. Кроме того, могут присутствовать дополнительные условия — например, кратность длины кода байту, как в случае форматирования звука. В нашем примере скорее всего необходимо будет выбрать n=8 и количество уровней составит N=256. При этом реальный шаг квантования определится как Δu=(Umax — Umin)/2n ≈ 0,04 В;
  • зафиксируем также важную закономерность и правило: увеличение длины кода на один разряд соответствует росту количества уровней квантования или уменьшению шага квантования вдвое.

Квантование амплитуд и использование децибел
При оценке квантования часто используют уже знакомую нам меру децибел (рис.2.9):
  • “цена” одного двоичного разряда кода в децибелах может быть определена исходя из соответствующих формул. Поскольку, добавляя двоичный разряд, мы увеличиваем диапазон вдвое, получим для мощности Dp(2)=10lg2≈3 дБ/разряд (более точно — 3,01), а для амплитуды Du(2)=20lg2≈6 дБ/разряд. Эти значения широко используются;
  • учитывая длину кода амплитуды, получим ширину динамического диапазона в дБ при кодировании амплитуду звука 8 битами (как например для речи) - 48 дБ. При кодировании 16-ю разрядами такой диапазон составит 96 дБ;
  • cопоставим это с оценкой количества уровней двоичного кода. Для 8-разрядного кодирования, исходя из соотношения D=20lgUx/U0 =48, получим lgUx/U0 = 2,4 и количество уровней N=102,4=251 (при более точном расчете с учетом коэффициента 3,01 - близко к 256). Для 16-разрядного кода соответственно получим N≈65536. Это подтверждает правильность установленной пропорции количества двоичных разрфдов и ширины диапазона в дБ;
  • обратим внимание, что в некоторых случаях (например, в параметрах радиоэлектронной аппаратуры) величина динамического диапазона в дБ указывается отрицательной. Это связано с выбором «точки отсчета». Знак минус появляется, если максимальной мощности источника звука ставится в соответствие уровень 0 дБ, как это и принято, в частности, для звуковоспроизводящей аппаратуры.

Дополнительно: Характеристики погрешностей квантования
Погрешность квантования представляет собой непрерывную случайную величину, которую принято называть также «шумом квантования» (рис.2.10). При этом:
  • погрешности δu = U(t) - U*(t) обычно имеют с равномерное распределение в диапазное шага квантования Δu. На практике это означает, что если весь такой диапазон разделить на одинаковые интервалы, то значения δu будут попадать в такие интервалы примерно одинаково часто (рис.2.10);
  • существуют два способа выбора уровня квантования. Простейший из них предусматривает «округление» в большую (или меньшую) сторону. В этом случае значение Δu – максимальная погрешность квантования, а ее математическое ожидание m(δu)=|Δu/2| (рис.2.10). Аальтернативный способ — выбор ближайшего уровня квантования. В этом случае максимальная погрешность составляет Δu/2 при m(δu)=0;
  • наряду с математическим ожиданием m(δu) важной характеристикой погрешностей является их дисперсия D(δu) или среднеквадратическое отклонение S(δu), которые характеризуют их разброс. Значения этих параметров полностью определяются величиной шага дискретизации: D(δu) = Δu2/12, S(δu)=√D(δu) = Δu/(2√3) – рис.2.10.



Контрольные вопросы
1) Назовите основные параметры квантования амплитуд дискретных отчетов сигналов. Какие из них непосредственно связаны между собой.
2) Опираясь на рис.2.8, опишите последовательность выбора параметров квантования с учетом основных характеристик технического решения (диапазона изменения сигнала, допустимой погрешности, разрядности используемых АЦП). Приведите числовой пример.
3) Какова связь между разрядностью двоичного кода квантованного сигнала и погрешностью квантования
4) Как определяется “цена” двоичного разряда кода в децибелах для мощности и амплитуды сигнала.
5) Какова ширина динамического диапазона в децибелах при кодировании речи и произвольных источников звука. Чем она определяется.
6) С чем связано использование отрицательной величины динамического диапазона в децибелах.
7) Опираясь на рис.2.10, охарактеризуйте погрешность («шум») квантования как случайную величину.


2.4 Определение количества информации

Выбор как элементарный информационный акт
Простейшим информационным актом (действием) является выбор в общем случае из нескольких (N) возможностей. В связи с этим уточним следующее (рис.2.11):
  • с позиций передачи сообщений примерами информационного выбора могут быть передача или прием знаков. В первом случае Источник последовательно выбирает для передачи знаки, из которых состоит сообщение. Во втором эквивалентом выбора является получение и распознавание одного из возможных вариантов знаков. В обоих случаях используется фиксированный набор из N разновидностей знаков, именуемый алфавитом;
  • информационная ценность выбора из N возможностей зависит от значения N и возрастает с его увеличением (интуитивно ясно, что однозначный выбор например сразу из 100 возможностей ценнее, чем из 10 или из 2). Таким образом, само значение N может служить мерой количества информации. Однако, данная мера характеризует лишь единичный выбор, а в сообщении их, как и отдельных знаков, может быть множество. Ниже мы рассмотрим меры информации, которые удобны для сообщений;
  • случай непрерывного сообщения, когда Источник постоянно генерирует непрерывную зависимость u(t), а Получатель обрабатывает ее переданную через канал копию, можно свести к предыдущему варианту за счет оцифровки. При этом в результате дискретизации по времени получается последовательность выборов значений U(ti). Поскольку эти величины по-прежнему непрерывны (могут иметь любое значение в диапазоне Umax-Umin), такому случаю соответствует N→∞. За счет квантования по времени значение N ограничивается. Например, в результате оцифровки звука мы получаем последовательность дискретных уровней амплитуд Uj(ti), которые можно интерпретировать как знаки алфавита. При однобайтном кодировании объем такого алфавита N не превышает 28=256, а при двухбайтном — 216=65536.

Информационная емкость сообщений
Рассмотрим общий случай дискретного сообщения, которое представляет собой последовательность из L знаков, принадлежащих алфавиту объемом N. Максимальное количество информации, которое способно нести такое сообщение, назовем его информационной емкостью. Используются две меры информационной емкости и, соответственно, информации (рис.2.12):
  • такой мерой может служит количество уникальных сочетаний знаков QL=NL. Действительно, каждому такому сочетанию можно присвоить индивидуальный смысл. В соответствии с видом функции данная мера информации называется показательной;
  • при очевидной простоте и наглядности показательная мера характеризуется и опредленными недостатками: во-первых, при сколько-нибудь значительных длинах сообщений значения Q становятся огромными и с ними неудобно работать; во-вторых, здесь отсутствует важное привычное свойство сообщений — количество информации не пропорционально их длине (например, два трехзначных числа могут иметь до 1000 значений каждое, а их объединение — число из шести цифр может иметь уже до 1000000 значений). Это называют неаддитивностью;
  • устранить упомянутые недостатки позволяет знакомая нам операция логарифмирования. Используем в качестве меры информации в сообщении из L знаков например величину IL = log2NL = L logLN. Как видно, теперь количество информации, которое может нести сообщение, пропорционально его длине (логарифмическая мера аддитивна), а порядок величин становится вполне обозримым (например, при довольно большом N=65536, которое характерно для двухбайтного кодирования звука, величина IL=L log265536 составляет всего Lх16). Итак, логарифмическая мера информации достаточно удобна и компактна. На практике применяется именно она;
  • если величину QL можно было трактовать как максимально возможное число сочетаний знаков в сообщении, то значение IL определяет необходимое количество разрядов для его кодирования. Так, в рассмотренном выше примере для сообщения из L=100 знаков необходимо 1600 двоичных разрядов. При этом нужно учитывать, что точное соответствие числу разрядов получается только если объем алфавита N кратен степени двойки. В случае, когда например N=10, получим log2N≈3,3219. При этом для сообщения длиной L=100 знаков понадобится I=333 двоичных разряда (с учетом округления до целого в большую сторону);
  • существенно, что преимущества логарифмической меры сохраняются при любом основании логарифма. То-есть, в общем виде можно записать формулу IL(m) = L logmN. При этом выбор m, разумеется, повлияет на результат расчета. На самом деле этот параметр определяет единицы измерения информации.

Единицы измерения информации
Как известно, общепринятой единицей количества информации является бит. При этом важно уточнить следующее (рис.2.13):
  • один бит — количество информации, которое соответствует ее элементарному кванту — двоичному выбору. Бит может иметь одно из двух противоположных значений (в связи с этим иногда говорят про «пол» бита - sex оf bit). Эти значения, в частности, реализуются как состояния двоичного разряда кода (0 или 1). Применительно к сообщениям такое означает использование двоичного алфавита. При этом значение I= logm2=1 достигается только при основании логарифма m=2. Таким образом, единица измерения бит предполагает именно использование основания 2 при логарифмировании;
  • поскольку в принципе возможно использование и других оснований m, могут существовать и альтернативные единицы измерения информации. В частности, m=10 соответствует единица “дит”, а m=e - “нит”. Это можно сравнить с использованием валют: одна и та же стоимость при различных валютных курсах будет отвечать разному количеству денежных единиц. Однако валюта “биты” (m=2) занимает уникальное положение, поскольку объективно соответствует минимальному кванту информации — двоичному выбору. К тому же, как известно, техническая реализация двоичного кода наиболее проста;
  • как мы уже обратили внимание, что количество битов, которое несет выбор из N альтернатив, может быть не целым (во всех случаях, когда значение N не кратно степени 2). Это вполне естественно, если понимать, что мы имеем дело с единицей измерения, а не с объектом. Объектами в случае сообщений являются знаки. При этом для объемных алфавитов знаки могут условно говоря дробиться за счет перекодирования в более простые алфавиты. По сути, мы уже знакомились с таким подходом, рассматривая способы форматирования сообщений с использованием двоичного алфавита.
О дисциплине ТИК
Почему «Теория информации и кодирования» - одна из самых интересных дисциплин, которые изучают будущие системщики и защитники информации?

В ней сочетаются золотая классика и самая актуальная современность computer-science.

продолжение
О сайте
Здесь вы найдете материалы, которые помогут в изучении дисциплины “Теория информации и кодирования” (ТИК) в том виде, как она преподается на кафедре ЭВМ ДИИТа.

На сайте размещены методические материалы:
  • электронный конспект лекций;
  • методическое обеспечение к лабораторным работам;
  • полезные ссылки.

продолжение
© 2008-2013 • Теория информации и кодирования
UP