Проектирование устройства захвата и аналого-цифрового преобразования речевого сигнала

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Информатика, ВТ, телекоммуникации
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    66,24 Кб
  • Опубликовано:
    2012-10-04
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Проектирование устройства захвата и аналого-цифрового преобразования речевого сигнала

Введение

Человеческая речь - исторически сложившаяся форма общения посредством языковых конструкций, создаваемых на основе определённых правил. Она позволяет человеку познавать окружающий мир, передавать свои знания и опыт другим людям, аккумулировать их для передачи последующим поколениям. Процесс речи предполагает формирование и формулирование мыслей речевыми средствами образуемые, как правило, артикуляционным аппаратом человека. В целом звуки речи подразделяются на шумы и тоны. Тоны в речи возникают в результате колебания голосовых связок; шумы образуются в результате непериодических колебаний выходящей из лёгких струи воздуха. Математическую модель можно представить в виде возбуждающих генераторов тонового и белового шума и группы фильтров, модуляторов и ключей - рот, нос, язык, губы, обеспечивающих фильтрацию и формирование определённого ощущения звука.

У человека преобразование акустических волн в сигналы нейронных цепей происходит во внутреннем ухе, а более конкретно - в улитке. Улитка содержит в себе мембрану, различные участки которой резонируют на различных частотах, возбуждая нервные окончания. Параметры мембраны определяют спектр поспринимаемых звуков, у здорового взрослого человека он составляет 20 Гц-20 кГц. На других частотах резонанс в мембране не возникает, и они человеком не воспринимаются. Мозг человека анализирует разницу амплитуд, как звука, достигшего внешнего уха, так и разницу амплитуд в слуховом канале после ушной раковины для определения местоположения источника звука.

Звук представляет собой аналоговый сигнал, непрерывный во времени и принимающий произвольные неограниченные величины, его так же можно условно поделить на несколько частично пересекающихся классов:

1.тоновые (pitched):

oгармонические (harmonic),

oслабо гармонические (rough-garmonic);

oнегармонические (inharmonic);

2.шумовые (noisy);

3.перкуссивные (percussive).

Первая передача речи на расстоянии, по проводам, была осуществлена в 1876 году североамериканским учёным, изобретателем и бизнесменом Александром Грэмом. Активное развитие техники, в частности развитие радиоприемников, позволило осуществить передачу речи без проводов. Первая публичная демонстрация состоялась 7 мая 1895 года Александром Степановичем Поповым. Уже в 1908 году был создан регламент в котором было зафиксировано распределение радиочастот между разными службами. В 1922 году было открыто свойство коротких волн преломляться в верхних слоях атмосферы, что позволило распространять сигналы на огромные расстояния. А в 1927 году была установлена радиотелефонная связь через Атлантический океан, которая могла передавать человеческую речь из Европы в Америку. С постепенным развитием цифровой техники важным параметрам стало качество речевого сигнала. Главным фактором, определяющим качество передачи речевого сигнала в низкоскоростных цифровых системах связи, является пропускная способность цифрового канала. Для того, чтобы иметь возможность передавать, хранить и обрабатывать звук посредством цифровой техники необходимо преобразование его цифровой вид - квантование. При квантовании с аналогового сигнала производятся выборки через определенные промежутки времени, а затем сопоставление каждой выборке конечной дискретного значения - цифрового кода. Такое представление имеет название импульсно-кодовая модуляция (ИКМ). Возможны и иные методы преобразования, но они как правило ускоспециальны, например, детекторы частоты с одной стороны и генераторы с цифровым управлением с другой.

Цифровое представление звука ценно прежде всего возможностью бесконечного хранения и тиражирования без потери качества, однако преобразование из аналоговой формы в цифровую и обратно все же неизбежно приводит к частичной его потере. Наиболее неприятные на слух искажения, вносимые на этапе оцифровки - гранулярный шум, возникающий при квантовании сигнала по уровню из-за округления амплитуды до ближайшего дискретного значения. В отличие от простого широкополосного шума, вносимого ошибками квантования, гранулярный шум представляет собой гармонические искажения сигнала, наиболее заметные в верхней части спектра.

При восстановлении звука из цифровой формы в аналоговую возникает проблема сглаживания ступенчатой формы сигнала и подавления гармоник, вносимых частотой дискретизации. Из-за неидеальности АЧХ фильтров может происходить либо недостаточное подавление этих помех, либо избыточное ослабление полезных высокочастотных составляющих. Плохо подавленные гармоники частоты дискретизации искажают форму аналогового сигнала, что создает впечатление "шероховатого", "грязного" звука.

Цифровой звук обрабатывается посредством математических операций, применяемых к отдельным отсчетам сигнала, либо к группам отсчетов различной длины. Выполняемые математические операции могут либо имитировать работу традиционных аналоговых средств обработки (микширование двух сигналов - сложение, усиление/ослабление сигнала - умножение на константу, модуляция - умножение на функцию и т.п.), либо использовать альтернативные методы - например, разложение сигнала в спектр (ряд Фурье), коррекция отдельных частотных составляющих, затем обратная "сборка" сигнала из спектра.

Обработка цифровых сигналов подразделяется на линейную (в реальном времени, над "живым" сигналом) и нелинейную - над предварительно записанным сигналом. Линейная обработка требует достаточного быстродействия вычислительной системы (процессора); в ряде случаев невозможно совмещение требуемого быстродействия и качества, и тогда используется упрощенная обработка с пониженным качеством. Нелинейная обработка никак не ограничена во времени, поэтому для нее могут быть использованы вычислительные средства любой мощности, а время обработки, особенно с высоким качеством, может достигать нескольких минут и даже часов.

Для обработки применяются как универсальные процессоры общего назначения - Intel 8035, 8051, 80x86, Motorola 68xxx, SPARC - так и специализированные цифровые сигнальные процессоры (Digital Signal Processor, DSP) Texas Instruments TMS xxx, Motorola 56xxx, Analog Devices ADSP-xxxx и др.

Разница между универсальным процессором и DSP состоит в том, что первый ориентирован на широкий класс задач - научных, экономических, логических, игровых и т.п., и содержит большой набор команд общего назначения, в котором преобладают обычные математические и логические операции. DSP специально ориентированы на обработку сигналов и содержат наборы специфических операций - сложение с ограничением, перемножение векторов, вычисление математического ряда и т.п. Реализация даже несложной обработки звука на универсальном процессоре требует значительного быстродействия и далеко не всегда возможна в реальном времени, в то время как даже простые DSP нередко справляются в реальном времени с относительно сложной обработкой, а мощные DSP способны выполнять качественную спектральную обработку сразу нескольких сигналов.

В силу своей специализации DSP редко применяются самостоятельно - чаще всего устройство обработки имеет универсальный процессор средней мощности для управления всем устройством, приема/передачи информации, взаимодействия с пользователем, и один или несколько DSP - собственно для обработки звукового сигнала. Например, для реализации надежной и быстрой обработки сигналов в компьютерных системах применяют специализированные платы с DSP, через которые пропускается обрабатываемый сигнал, в то время как центральному процессору компьютера остаются лишь функции управления и передачи.

Поскольку любой цифровой сигнал представляется реальной электрической кривой напряжения или тока - его форма так или иначе искажается при любой передаче, а "замороженный" для хранения сигнал (сигналограмма) подвержен деградации в силу обычных физических причин. Все эти воздействия на форму несущего сигнала являются помехами, которые до определенной величины не изменяют информационного содержания сигнала, как отдельные искажения и выпадения букв в словах обычно не мешают правильному пониманию этих слов, причем избыточность информации, как и увеличение длины слов, повышает вероятность успешного распознавания.

Сам несущий сигнал может искажаться, однако переносимая им информация - закодированный звуковой сигнал - в абсолютном большинстве случаев остается неизменной.

Для того, чтобы качество несущего сигнала не ухудшалось, любая передача полезной звуковой информации - копирование, запись на носитель и считывание с него - обязательно должна включать операцию восстановления формы несущего сигнала, а в идеале - и первичного цифрового вида сигнала информационного, и лишь после этого заново сформированный несущий сигнал может быть передан следующему потребителю. В случае прямого копирования без восстановления (например, обычным переписыванием видеокассеты с цифровым сигналом, полученным при помощи ИКМ-приставки, на обычных видеомагнитофонах) качество цифрового сигнала ухудшается, хотя он по-прежнему полностью содержит всю переносимую им информацию. Однако после многократного последовательного копирования или длительного хранения качество ухудшается настолько, что начинают возникать неисправимые ошибки, необратимо искажающие переносимую сигналом информацию. Поэтому копирование и передачу цифровых сигналов необходимо вести только в цифровых устройствах, а при хранении на носителях - своевременно "освежать" не дожидаясь необратимой деградации (для магнитных носителей этот срок оценивается в несколько лет). Правильно переданная или обновленная цифровая сигналограмма качества не теряет и может копироваться и существовать вечно в абсолютно неизменном виде.

Тем не менее, не следует забывать, что корректирующая способность любого кода конечна, а реальные носители далеки от идеальных, поэтому возникновение неисправимых ошибок - на такая уж редкая вещь, особенно при неаккуратном обращении с носителем. При чтении с новых и правильно хранимых DAT-кассет или компакт-дисков в качественных и надежных аппаратах таких ошибок практически не возникает, однако при старении, загрязнении и повреждении носителей и считывающих систем их становится больше. Одиночная неисправленная ошибка почти всегда незаметна на слух благодаря интерполяции, однако она приводит к искажению формы исходного звукового сигнала, а накопление таких ошибок со временем начинает ощущаться и на слух.

Отдельную проблему составляет сложность регистрации неисправленных ошибок, а также проверки идентичности оригинала и копии. Чаще всего конструкторы цифровых звуковых устройств, работающих в реальном времени, не озабочены вопросом точной проверки достоверности передачи, считая вполне достаточными меры, принятые для коррекции ошибок. Невозможность в общем случае повторной передачи ошибочного отсчета или блока приводит к тому, что интерполяция происходит скрытно и после копирования нельзя с уверенностью сказать, точно ли скопирован исходный сигнал. Индикаторы ошибки, имеющиеся в ряде устройств, обычно включаются только в момент ее возникновения, и в случае одиночных ошибок их срабатывание легко может остаться незамеченным. Даже в системах на основе персональных компьютеров чаще всего нет возможности контролировать правильность приема по цифровому интерфейсу или прямого считывания CD; выходом является только многократное повторение операции и сравнение результатов.

И наконец, в принципе возможны ситуации, когда даже незначительные ошибки способны необратимо исказить передаваемую информацию, оставшись при этом незамеченными системой передачи. Другое дело, что вероятность возникновения подобных ошибок исчезающе мала (порядка одной на несколько лет непрерывной передачи сигнала), поэтому такую возможность практически нигде не принимают в расчет.

1. Расчётно-теоретический раздел

1.1 Уточнение технического задания

Уточнение технических и эксплуатационных показателей.

Устройство предназначено для использования в стационарной аппаратуре (группа 1.1 по ГОСТ РВ 20.39.304-98). Предельные значения параметров окружающей среды, воздействующих на конструкцию для данной группы аппаратуры, приведены в таблице 1.1.

Таблица 1.1 Предельные значения параметров окружающей среды

Вибрация Частота, Гц Ускорение, м/с210-70 19,6Ударные сотрясения Ускорение, м/с2 Длительность, мс98 5-15Одиночные удары Ускорение, м/с2 Длительность, мс196 1-5Температура максимальная Рабочая, °К Предельная, °К323 333Температура минимальная Рабочая, °К Предельная, °К263 253Влажность относительная Насыщенность, % Температура, °К93 298±10Акустические шумы Уровень, дБ Частота, Гц85-125 50-1000Давление атмосферное Максимальное, Па Минимальное, Па110000 55000Линейные ускорения Замедление, g Центральное, g2-4 2-5Ветровая нагрузка Рабочая, м/с Предельная, м/сдо 50 до 70

1.2 Импульсно-кодовая модуляция (ИКМ)

Исходная форма звукового сигнала - непрерывное изменение амплитуды во времени - представляется в цифровой форме с помощью перекрестной дискретизации - по времени и по уровню.

Согласно теореме Котельникова, любой непрерывный процесс с ограниченным спектром может быть полностью описан дискретной последовательностью его мгновенных значений, следующих с частотой, как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота выборки мгновенных значений (отсчетов) называется частотой дискретизации.

Из теоремы следует, что сигнал с частотой Fa может быть успешно дискретизирован по времени на частоте 2Fa только в том случае, если он является чистой синусоидой, ибо любое отклонение от синусоидальной формы приводит к выходу спектра за пределы частоты Fa. Таким образом, для временной дискретизации произвольного звукового сигнала (обычно имеющего, как известно, плавно спадающий спектр), необходим либо выбор частоты дискретизации с запасом, либо принудительное ограничение спектра входного сигнала ниже половины частоты дискретизации.

Одновременно с временной дискретизацией выполняется амплитудная - измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это - взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов - от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования размазываются по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8..12 кГц.

Представление аналогового сигнала в цифровом виде называется также импульсно-кодовой модуляцией, так как сигнал представляется в виде серии импульсов постоянной частоты (временная дискретизация), амплитуда которых передается цифровым кодом (амплитудная дискретизация). PCM-поток может быть как параллельным, когда все биты каждого отсчета передаются одновременно по нескольким линиям с частотой дискретизации, так и последовательным, когда биты передаются друг за другом с более высокой частотой по одной линии.

Для улучшения соотношения сигнал/шум и снижения влияния ошибок квантования, которое в случае однобитового преобразователя получается довольно высоким, применяется метод формовки шума (noise shaping) через схемы обратной связи по ошибке и цифрового фильтрования. В результате применения этого метода форма спектра шума меняется так, что основная шумовая энергия вытесняется в область выше половины частоты Fs, незначительная часть остается в нижней половине, и практически весь шум удаляется из полосы исходного аналогового сигнала.

Еще в 60-х годах был принят международный стандарт G.711 - алгоритм оцифровки голоса под названием импульсно-кодовой модуляции. Прямое аналого-цифровое преобразование является низкоэффективным (т. е. Имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением - либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах) . Они представляют собой таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей. Во время воспроизведения каждое значение дискретизации преобразует в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха. Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило. Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии.

Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.

На рисунке 1.1, приведены обобщенные кривые, характеризующие помехоустойчивость различных методов цифрового представления речи:

Рисунок 1.1 Помехоустойчивость различных методов цифрового представления.

·кривая 1 соответствует ИКМ-представлению;

·А - область нечувствительности к ошибкам;

·В - слабая чувствительность;

·С - потеря работоспособности;

·Рош - вероятность ошибки на символ;

·SNR - отношение сигнал/шум, рассчитанное через среднеквадратическую ошибку восстановления.

ИКМ-кодеки имеют наихудшие показатели помехоустойчивости. На рисунке можно увидеть, что изо всех кривых (характеристик разных способов цифрового представления речи) самый короткий относительно других типов ЦПР участок А (нечувствительность к ошибкам в канале) имеет кривая 1. Кодеки могут потерять работоспособность, даже если вероятность ошибки равна 10-5, что соответствует параметрам канала среднего класса. Системы с ИКМ работают только в области нечувствительности к ошибкам в канале, но даже в этом случае вводятся специальные меры для устранения последствий возникновения одиночных ошибок. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.

Параметры ИКМ при оцифровке речевых сигналов описаны в рекомендациях МККТТ (Международный консультативный комитет по телефонии и телеграфии, CCITT) и, как правило, имеют следующие значения: - частота дискретизации 8000 Гц; - число двоичных разрядов на отсчет 8; - скорость передачи 64000 бит/c. При этом может быть оцифрован и восстановлен аналоговый сигнал с верхней частотой до 4000 Гц.

При использовании дифференциальной (разностной) ИКМ (ДИКМ, Differencial PCM, DPCM) вместо кодирования отсчетов кодируются разности между соседними отсчетами. Обычно разности отсчетов меньше самих отсчетов. Скорость передачи цифрового потока снижается до 32-56 кбит/c. В системах с логарифмической ДИКМ используют А- и мю законы компандирования для реализации неравномерного квантования. Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Адаптивная ДИКМ (АДИКМ, Adaptive Differencial PCM, ADPCM) - система ДИКМ с адаптацией квантователя (АЦП и ЦАП) и предсказателя. При АДИКМ оцифровывается не сам сигнал, а его отклонение от предсказанного значения (сигнал ошибки, ошибка предсказания). Данный метод предложен в качестве стандарта комитетом CCITT.

Наиболее часто применяются следующие разновидности АДИКМ:

рекомендация G.721 МККТТ (скорость передачи 32 кбит/с);

рекомендация G.722 МККТТ (частота дискретизации 16 000 Гц);

рекомендация G.723 МККТТ (скорость передачи 24 кбит/с);

Creative ADPCM (4, 2,6 или 2 бита на отсчет);

IMA/DVI ADPCM (4, 3 или 2 бита на отсчет);

Microsoft ADPCM.

Рассмотренные выше методы могут вносить незначительные изменения и потери в речевые сигналы (например, сужение динамического диапазона в области высших частот, ограничение крутизны сигнала), которые практически не влияют на аутентичность речи. Один из наиболее общепринятых и давно используемых алгоритмов сжатия речи называется ADPCM, стандарт G.726 был принят в 1984 году). Этот алгоритм дает практически такое же качество воспроизведения речи, как и PCM, однако для передачи информации при его использовании требуется полоса всего в 32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемами или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые линии связи, умеют распознавать факсимильный обмен и передают соответствующие сигналы непосредственно в цифровом виде, не преобразуя их в аудиосигнал. Оба описанных метода кодирования (их называют методами кодирования формы сигнала) работают весьма прямолинейно. Для достижения более высоких степеней сжатия при сохранении пристойного качества звучания необходимы более усложненные методы, основанные на использовании более глубоких особенностей речи. В марте 1995 года ITU принял новый стандарт G.723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт является частью более общего стандарта H.324, описывающего подход к организации таких видеоконференций, при этом целью является обеспечение видеоконференций с использованием обычных модемов. Основой G.723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс. Как показали испытания, проведенные ведущими американскими и европейскими телекоммуникационными компаниями, качество голоса, получаемое при сжатии методом MP-MLQ до уровня 6,4 кбит/с, не ниже того, что дает ADPCM при сжатии до 32 кбит/с.

Согласно рекомендации G.726 к стандарту, метод ADPCM (АДИКМ) может быть использован для осуществления двустороннего преобразования PCM-сигнала, передаваемого по каналу с пропускной способностью 64 кбит/c, в PCM-сигнал, предназначенный для передачи по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.

Во время работы метода адаптивный предсказатель осуществляет предсказание уровня поступающего равномерно квантованного сигнала. Входной сигнал имеет 256 уровней квантования и частоту дискретизации 8 кгц. В сумматоре происходит алгебраическое сложение входного и предсказанного сигнала. Разностный сигнал поступает в адаптивный квантователь, где производится логарифмическое квантование. Число уровней квантования, согласно стандарту, может быть равно 16, 8, 4 или 2. (Соответственно сигнал может быть передан по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.) Другие параметры квантования частично определяются в стандарте, а частично зависят от характеристик обрабатываемого сигнала.

С выхода адаптивного квантователя сигнал одновременно поступает в обратный адаптивный квантователь и в канал передачи. Обратный адаптивный квантователь предназначен для перевода логарифмически квантованного PCM-сигнала в равномерно квантованный разностный сигнал. Получаемый разностный сигнал может не совпадать с исходным разностным сигналом. Обратное преобразование необходимо для того, чтобы обеспечить одинаковое предсказание на этапах кодирования и декодирования.

С выхода обратного адаптивного квантователя равномерно квантованный разностный сигнал одновременно поступает на вход адаптивного предсказателя и на вход сумматора. Последний осуществляет суммирование данного сигнала с предсказанным сигналом. Полученный в результате суммирования сигнал также поступает на вход адаптивного предсказателя.

Адаптивный предсказатель осуществляет предсказание на основе 6 последних выборок обрабатываемого сигнала. При этом учитываются особенности данного сигнала. (Учет производится посредствам адаптивного изменения параметров предсказывающей функции.)

Процесс декодирования в методе ADPCM схож с процессом кодирования. ADPCM-сигнал поступает на вход обратного адаптивного квантователя. Равномерно квантованный разностный сигнал одновременно поступает на сумматор и адаптивный предсказатель. На сумматор также поступает предсказанный сигнал. Полученный в результате сложения восстановленный сигнал одновременно поступает в адаптивный предсказатель и синхронизатор. В синхронизатор также поступает входной ADPCM-сигнал. Синхронизатор служит для устранения накопленного временного искажения. С выхода синхронизатора PCM-сигнал поступает в выходной канал с пропускной способностью 64 кбит/c.

Правильное декодирование сигнала становится возможным благодаря одинаковым предсказаниям, вычисляемым адаптивным предсказателем на этапах кодирования и декодирования. Отметим, что одним из важных условий корректного декодирования является отсутствие ошибок в канале передачи.

АДИКМ является основой стандарта ITU G.727, который определяет преобразование речи методом EADPCM - Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). Согласно данному стандарту, речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок - следующие по убыванию старшинства биты и т.д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

Например, в случае преобразования EADPCM (4,2) в речевом кадре будет содержаться четыре блока, и наименее значимые блоки - два последних (блоки расширения), могут отвергаться в случае перегрузки. Эта особенность используется в рекомендации FRF.11, регламентирующей передачу речи по сети Frame Relay. Согласно Приложению G этой рекомендации сформированный методом EADPCM речевой кадр передается в двух кадрах Frame Relay: основная информация - в кадрах с битом DE=0 (Discard Eligibility - Разрешение Сброса), и информация расширения - в кадрах с установленным битом (DE=1). Это означает что в случае перегрузки, кадры с установленным битом DE могут быть уничтожены.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать такие сигналы и обрабатывать их иначе, чем речевой трафик.

1.3 Линейное предсказание

Идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию. Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель. Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим. Параметры ЛП квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал), обозначенный в формуле 2 через R(n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction - ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Однако существуют и другие подходы. В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и так восстанавливают речь.

В спектре звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области - в районе 300 Гц, 1700 Гц и 2600 Гц, - описанные выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следующий с некоторой периодичностью. Обратите также внимание на то, что энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Говорят, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее свойство очень полезно, так как свидетельствует об избыточности, и в этом заложен большой ресурс для сжатия. Из-за периодичности сигналов присутствующий на показанном участке звонкой речи случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речи в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (вспомним, как иной раз разговаривает цифровой сотовый или Интернет-телефон). Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5-30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи). Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются всё новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не появился. Что касается сокращенного описания сигнала возбуждения в целом, то с этим дела обстоят еще хуже: эффективных "конструктивных" методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.

Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте получило какое-то спектральное усиление, что отражено на спектре, а в целом, что речь, что возбуждение малокоррелированы. После появления первых вокодеров случилась пауза: развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два - потому, что в Европе (А-закон) и в США (мю-закон) были приняты разные реализации одного и того же стандарта. Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало. Вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS. Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология - адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ. В качестве входного сигнала в LPC используется та же последовательность цифровых значений амплитуды, однако этот метод применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия. Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.

Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и считает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности. Одной из наиболее распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Этот метод позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с; он был стандартизован Международным союзом электросвязи (International Telecommunications Union - ITU) в 1992 году как алгоритм кодирования речи G.728. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением.

Пять последовательных цифровых значений кодируются одним 10-битовным блоком - это и дает те самые 16 кбит/с. Для применения этого метода требуются очень большие вычислительные мощности, в частности, для прямолинейной реализации G.728 необходим процессор с быстродействием 44 mips.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

1.4 Вокодер

Одним из основных узлов ПО пакетирования речи является вокодер. Вокодер (voice coder) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала. В разработке находятся вокодеры, способные разбивать речь на осмысленные элементы - фонемы. Это может дать возможность передавать речь по очень узким каналам. Вокодер производит синтез pечи на основе пpоизвольного входного сигнала с богатым спектpом. Речевой синтез pеализуется пpи помощи фоpмантных пpеобpазований, выделение из сигнала с достаточным спектpом нужного набоpа фоpмант с нужными соотношениями пpидает сигналу свойства соответствующего гласного звука. Путем анализа исходного pечевого сигнала из него выделялась инфоpмация, об изменении положений фоpмант (пеpеход от звука к звуку), котоpая кодиpовалась и пеpедавалась по линии связи, а на пpиемном конце блок упpавляемых фильтpов и усилителей синтезиpовал pечь заново.

Изначально вокодеры были разработаны в целях экономии частотных ресурсов радиолинии системы связи при передаче речевых сообщений. Экономия достигается за счет того, что вместо собственно речевого сигнала передают только значения его определенных параметров, которые на приемной стороне управляют синтезатором речи. Основу синтезатора речи составляют три элемента: генератор тонального сигнала для формирования гласных звуков, генератор шума для формирования согласных и система формантных фильтров для воссоздания индивидуальных особенностей голоса. После всех преобразований голос человека становится похожим на голос робота, что вполне терпимо для средств связи и интересно для музыкальной сферы.

Вокодер как необычный эффект был взят на вооружение электронными музыкантами и в последствии стал полноценным эффектом благодаря фирмам-изготовителям музыкального оборудования. Вокодер как музыкальный эффект позволяет перенести свойства одного (модулирующего) сигнала на другой сигнал, который называют носителем. В качестве сигнала-модулятора используется голос человека, а в качестве носителя - сигнал, формируемый музыкальным синтезатором или другим музыкальным инструментом.

Наиболее эффективными являются вокодеры на основе метода линейного предсказания речи. Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Характеристики некоторых основных алгоритмов кодирования речи приведены в таблице 1.2.

Таблица 1.2 Основные характеристики наиболее известных типов вокодеров

Название алгоритмаРекомендацияСкорость алгоритма (кбит/с)Размер речевого кадра (октетов)Задержка накопления (мс)CS-ACELPITU G.72981010PCMITU G.711644055635548305ADPCMITU G.72640255322052415516105LD-CELPITU G.72816105MP-MLQITU G.723.106.03.082430ACELPITU G.723.15.32030

Важной характеристикой любого вокодера является качество воспроизводимой речи. В Таблице 1.3 приведены оценки MOS для различных методов кодирования.

Таблица 1.3 Показатели MOS основных алгоритмов кодирования речи

Название алгоритмаMOSG.711 (PCM; 64 кбит/c)4,1G.726 (ADPCM; 32 кбит/c)3,8G.728 (LD-CELP; 16 кбит/c)3,6G.723.1 (ACELP; 5,3 кбит/c)3,7G.723.1 (MP-MLQ; 6,3 кбит/c)3,9

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1. Большинство кодеков, используемых в IP-телефонии, описаны рекомендациями семейства «G» стандарта H.323

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать сигналы факс-аппаратов и модемов и обрабатывать их иначе, чем голосовой трафик. Многие методы кодирования берут свое начало от метода кодирования с линейным предсказанием LPC (Linear Predicative Coding). В качестве входного сигнала в LPC используется последовательность цифровых значений амплитуды, но алгоритм кодирования применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере.

Важно, что задержка в передаче речи связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), но и непосредственно с характером метода сжатия. Метод кодирования с линейным предсказанием LPC позволяет достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров. Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сличает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

Одной из самых распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Он позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением. Пять последовательных цифровых значений кодируются одним 10-битовым блоком - это и дает те самые 16 кбит/с. Для применения этого метода требуются большие вычислительные мощности; в частности, в марте 1995 г. ITU принял новый стандарт - G.723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт представляет собой часть более общего стандарта Н.324, описывающего подход к организации таких видеоконференций. Цель - организация видеоконференций с использованием обычных модемов. Основой G.723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс. Повышая эффективность использования полосы пропускания, механизмы сжатия речи в то же время могут привести к ухудшению ее качества и увеличению задержек.

Рекомендация G.711, утвержденная МККТТ в 1984 г., описывает кодек, использующий ИКМ преобразование аналогового сигнала с точностью 8 бит, тактовой частотой 8 кГц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя составляет 64 кбит/с (8 битх8 кГц). Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню (рис. 5.8) согласно специальному псевдо-логарифмическому закону: А-закон для европейской системы ИКМ-30/32 или ц- закон для североамериканской системы ИКМ-24.

Первые ИКМ кодеки с нелинейным квантованием появились уже в 60-х годах. Кодек G.711 широко распространен в системах традиционной телефонии с коммутацией каналов. Несмотря на то, что рекомендация G.711 в стандарте H.323 является основной и первичной, в шлюзах IP-телефонии данный кодек применяется редко из-за высоких требований к полосе пропускания и задержкам в канале передачи (все-таки 64 кбит/с это много). Использование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров. Одним из примеров применения кодека G.711 могут послужить IP-телефоны компании Cisco.

Один из старейших алгоритмов сжатия речи ADPCM - адаптивная дифференциальная ИКМ (стандарт G.726 был принят в 1984 г.). Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 16-32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому, если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Процесс преобразования не вносит существенной задержки и требует от DSP 5,5-6,4 MIPS (Million Instructions Per Second). Кодек может применяться совместно с кодеком G.711 для снижения скорости кодирования последнего. Кодек предназначен для использования в системах видеоконференций.

Рекомендация G.723.1 описывает гибридные кодеки, использующие технологию кодирования речевой информации, сокращенно называемую - MP-MLQ (Multy-Pulse - Multy Level Quantization - множественная импульсная, многоуровневая квантизация), данные кодеки можно охарактеризовать, как комбинацию АЦП/ЦАП и вокодера. Своим везникновением гибридные кодеки обязаны системам мобильной связи. Применение вокодера позволяет снизить скорость передачи данных в канале, что принципиально важно для эффективного использования радиотракта и IP-канала. Основной принцип работы вокодера - синтез исходного речевого сигнала посредством адаптивной замены его гармонических составляющих соответствующим набором частотных фонем и согласованными шумовыми коэффициентами. Кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их и передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3-6,3 кбит/с без видимого ухудшения качества речи. Кодек имеет две скорости и два варианта кодирования: 6,3 кбит/с с алгоритмом MP-MLQ и 5,3 кбит/с с алгоритмом CELP. Первый вариант предназначен для сетей с пакетной передачей голоса и обеспечивает лучшее качество кодирования по сравнению с вариантом CELP, но менее адаптирован к использованию в сетях со смешанным типом трафика (голос/данные).

Процесс преобразования требует от DSP 16,4-16,7 MIPS и вносит задержку 37 мс. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек уступает по качеству кодирования речи кодеку G.729a, но менее требователен к ресурсам процессора и пропускной способности канала.

Семейство включает кодеки G.729, G.729 Annex A, G.729 Annex В (содержит VAD и генератор комфортного шума). Кодеки G.729 сокращенно называют CS-ACELP Conjugate Structure - Algebraic Code Excited Linear Prediction - сопряженная структура с управляемым алгебраическим кодом линейным предсказанием. Процесс преобразования использует DSP 21,5 MIPS и вносит задержку 15 мс. Скорость кодированного речевого сигнала составляет 8 кбит/с. В устройствах VoIP данный кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.

Гибридный кодек, описанный в рекомендации G.728 в 1992 г. относится к категории LD-CELP - Low Delay - Code Excited Linear Prediction - кодек с управляемым кодом линейным предсказанием и малой задержкой. Кодек обеспечивает скорость преобразования 16 кбит/с, вносит задержку при кодировании от 3 до 5 мс и для реализации необходим процессор с быстродействием более 40 MIPS. Кодек предназначен для использования, в основном, в системах видеоконференций. В устройствах IP-телефонии данный кодек применяется достаточно редко.

Таблица 1.4 Характеристики кодеков

КодекМетод компрессииСкорость кодированияСложность реализацииКачествоЗадержкаG.726ADPCM32/24/16 кбит/сНизкая (8 MIPS)Хорошее (32 К), плохое (16 К)Очень низкая (0,125 мс)G.729CS-ACELP8 кбит/сВысокая (30 MIPS)ХорошееНизкая (Юме)G.729ACA-ACELP8 кбит/сУмеренная (20 MIPS)СреднееНизкая (Юме)G.723.1MP-MLQ6,4/5,3 кбит/сУмеренная (16 MIPS)Хорошее (6,4), среднее (5,3)Высокая (37 мс)G.728LD-CELP16 кбит/сОчень высокая (40 MIPS)ХорошееОчень низкая (3-5 мс)

Количественными характеристиками ухудшения качества речи являются единицы QDU (Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в табл. 1.5.

Таблица 1.5 Единицы ухудшения качества речи QDU для различных методов компрессии

Метод компрессииQDUADPCM 32 кбит/с3,5ADPCM 24 кбит/с7LD-CELP 16 кбит/с3,5CS-CELP 8 кбит/с3,5

Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14, причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU. Следовательно, при передаче разговора по национальным сетям должно теряться не более 5 QDU. Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования. Подавление пауз (silence suppression) - важная функция ATM-коммутаторов. Суть технологии подавления пауз заключается в определении различия между моментами активной речи и молчания в период соединения. В результате применения этой технологии генерация ячеек происходит только в моменты активного разговора. Поскольку в процессе типичного разговора по телефону тишина составляет до 60% времени, происходит двукратная оптимизация по количеству данных, которые должны быть переданы по линии. Объединение технологии сжатия речи и подавления пауз речи в коммутаторах приводит к уменьшению потока данных в канале до восьми раз.

Современные продукты для IP-телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP-сети. Единственным обязательным для применения кодеком в H.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт H.323 рекомендует G.723 и G.729 - последние способны сжимать оцифрованную 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 уже получил широкое распространение в системах передачи голоса по IP; его поддерживают значительное число производителей продуктов для IP-телефонии.

Схема вокодера:

Т-Ш - выделитель сигнала тон-шум

ГОТ - генератор основного тона

ГШ - генератор шума

Вокодеры можно разделить на два класа:

речеэлементные;

параметрические.

В речеэлементных вокодерах при кодировании распознаются произносимые элементы речи (например, фонема) и на выход кодера подаются только их номера. В декодере эти элементы создаются по правилам речеобразования или берутся из памяти декодера. Фонемные вокодеры предназначены для получения предельной компрессии речевых сигналов. Область применения фонемных вокодеров - линии командной связи, управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи и, соответственно, теряются все индивидуальные особенности диктора. Компрессия речевых сигналов в кодере осуществляется в анализаторе, который выделяет с речевого сигнала параметры, которые медленно меняются. В декодере при помощи местных источников сигналов, которые управляются принятыми параметрами, синтезируется речевой сигнал.

В параметрических вокодерах с речевого сигнала выделяют два типа параметров и по этим параметрам в декодере синтезируют речь:

Параметры, которые характеризуют источник речевых колебаний (генераторную функцию) - частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона (огласованные или гортанные звуки), шумового сигнала (шипящие и свистящие звуки);

Параметры, которые характеризуют огибающую спектра речевого сигнала.

В декодере, соответственно, по заданным параметрам генерируются основной тон, шум, а затем пропускаются через гребенку полосовых фильтров для восстановления огибающей спектра речевого сигнала.

По принципу определения параметров фильтровой функции различают вокодеры:

полосные (канальные);

формантные;

ортогональне.

В полосных вокодерах спектр речи делится на 7 - 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор для определения среднего уровня. В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина спектра.

Современные вокодеры можно поделить на аппаратные (с которых все и началось) и виртуальные (появились гораздо позже с развитием компьютерных технологий создания музыки). В практике компьютерного музыканта значительно чаще используются вокодеры виртуальные, реализованные в виде VST-плагинов (VST-pugins), так как они более гибкие в настройке. Применяются подобные решения вокодеров не сами по себе, а совместно с программой-хостом. В качестве таковой может быть использована любая виртуальная студия, поддерживающая технологию VST. Программа хост позволяет подключать собственно сам вокодер, и выбирать откуда будет поступать несущий и модулирующий сигнал (некоторые вокодеры имеют встроенный синтезатор несущего сигнала). Примером виртуальных вокодеров могут служить VST плагины такие как - Steinberg Vocoder, Fruity Vocoder, Akai DC Vocoder, Voctopus, AC vocoder, Formulator, Lpc-vocoder, Darkoder, Cylonix. Любой человек, знакомый с его принципиальным устройством, может собрать собственный вокодер в любой модульной програме типа NI Reactor/Generator, Max MSP, Buzz Composer. Примером аппаратного вокодера могут служить: Электроника ЭМ-26 со встроенным синтезатором, Korg KAOSS PAD 3 (цифровой), Korg VC-10 Vocoder, Boss Vt1-Vocoder, Sennheiser Vocoder, и т.д.

При сжатии реализующимся на аппаратном уровне, с использованием специализированных процессоров обработки цифрового сигнала, операция кодирования может привести к задержкам в передаче голоса. При разработке высококачественных методов сжатия речи для скоростей цифровых потоков ниже 10 Кбит/с возникают особенные трудности. Для простых алгоритмов задержка невелика - единицы миллисекунд, однако для сложных алгоритмов, обеспечивающих значительное сжатие, продолжительность задержки может составлять около сотни миллисекунд, что вполне ощутимо при разговоре. Недавние достижения в области обработки цифровых сигналов (DSP) и сверхбольших интегральных схем (very large scale integration - VLSI) сделали реализацию таких кодирующих устройств возможной и экономически эффективной.

DSP(Digital Signal Processor) - сигнальный процессор, обычно модулирует исходящие сигналы и демодулирует входящие на цифровом уровне в соответствии с используемым протоколом передачи данных. Другая важная проблема состоит в том, что сжатие речи, как правило, снижает качество звука. Известно, что больших степеней сжатия цифровой информации можно достичь только при использовании алгоритмов, не допускающих полного восстановления сжимаемой информации. Чем выше степень сжатия информации, тем сложнее (и соответственно дороже) оборудование требуется для осуществления этой операции. По мере усовершенствования технической базы сжатия речи это ограничение теряет свою жесткость, однако появляются все новые, более сложные алгоритмы, потребляющие большие вычислительные мощности.

Для радиотелефонной связи с подвижными объектами ни ИКМ, ни АДИКМ не годятся из-за их слишком высоких скоростей и узости радиоканалов связи. Для связи с морскими судами было предложено несколько кодеков, среди которых наибольший интерес представляет кодек Inmarsat-М (система спутниковой радионавигации), используемый ныне всеми странами и работающий по алгоритму IMBE (улучшенное многополосное возбуждение). По факту широкого применения этот кодек является международным стандартом. В этом алгоритме спектр речи делят фильтрами на несколько полос и в каждой полосе принимают отдельное решение звонко-глухо. Благодаря подстройке фильтров к гармоникам частоты ОТ достигается вполне удовлетворительное качество речи, несмотря на низкую скорость. Для лучшего выделения ОТ анализируют нескольких интервалов ОТ и формируют его интегральную оценку. Правда, кодек IMBE отличает высокая сложность и стоимость. Другой класс методов использует свойства собственно речевых сигналов - это CELP, VSELP, GSM и MPLPC. Они обеспечивают уровень сжатия от 10 до 20 раз, теряя при этом в той или иной мере качество исходного речевого PCM сигнала.

Высокоэффективная компрессия речи существует также в виде отдельного программного продукта. Системы позволяют записать фрагмент речи любой длительности - единственным ограничением является емкость диска - преобразовать или сжать его и сохранить либо в исходном (PCM WAVE), либо в сжатом форматах. Эти программные продукты позволяют оптимизировать процесс обработки речи в зависимости от особенностей дикции говорящего. Также имееются возможности управления работой алгоритмов сжатия для достижения компромисса между желанием получить более высокую степень сжатия и скорость обработки, и требованиям к более высокому качеству и натуральности восстановленного сигнала.

1.5 Методы кодирования звука

Сформированный цифровой сигнал может переносить любую полезную информацию, которая закодирована в виде последовательности битов - нулей и единиц.

Для повышения стойкости цифрового сигнала к помехам и искажениям применяется цифровое избыточное кодирование двух типов: проверочные (EDC - Error Detection Code, обнаруживающий ошибку код) и корректирующие (ECC - Error Correction Code, исправляющий ошибку код) коды. Цифровое кодирование состоит в простом добавлении к исходной информации дополнительных битов и/или преобразовании исходной битовой цепочки в цепочку большей длины и другой структуры. EDC позволяет просто обнаружить факт ошибки - искажение или выпадение полезной либо появление ложной цифры, однако переносимая информация в этом случае также искажается; ECC позволяет сразу же исправлять обнаруженные ошибки, сохраняя переносимую информацию неизменной. Для удобства и надежности передаваемую информацию разбивают на блоки (кадры), каждый из которых снабжается собственным набором этих кодов.

Каждый вид EDC/ECC имеет свой предел способности обнаруживать и исправлять ошибки, за которым опять начинаются необнаруженные ошибки и искажения переносимой информации. Увеличение объема EDC/ECC относительно объема исходной информации в общем случае повышает обнаруживающую и корректирующую способность этих кодов.

В качестве EDC популярен циклический избыточный код CRC (Cyclic Redundancy Check), суть которого состоит в сложном перемешивании исходной информации в блоке и формированию коротких двоичных слов, разряды которых находятся в сильной перекрестной зависимости от каждого бита блока. Изменение даже одного бита в блоке вызывает значительное изменение вычисленного по нему CRC, и вероятность такого искажения битов, при котором CRC не изменится, исчезающе мала даже при коротких (единицы процентов от длины блока) словах CRC. В качестве ECC используются коды Хэмминга (Hamming) и Рида-Соломона (Reed-Solomon), которые также включают в себя и функции EDC.

Информационная избыточность несущего цифрового сигнала приводит к значительному (на порядок и более) расширению полосы частот, требуемой для его успешной передачи, по сравнению с передачей исходного сигнала в аналоговой форме. Кроме собственно информационной избыточности, к расширению полосы приводит необходимость сохранения достаточно крутых фронтов цифровых импульсов.

Кроме целей помехозащиты, информация в цифровом сигнале может быть подвергнута также линейному или канальному кодированию, задача которого - оптимизировать электрические параметры сигнала (полосу частот, постоянную составляющую, минимальное и максимальное количество нулевых/единичных импульсов в серии и т.п.) под характеристики реального канала передачи или записи сигнала.

Полученный несущий сигнал, в свою очередь, также является обычным электрическим сигналом, и к нему применимы любые операции с такими сигналами - передача по кабелю, усиление, фильтрование, модуляция, запись на магнитный, оптический или другой носитель и т.п. Единственным ограничением является сохранение информационного содержимого - так, чтобы при последующем анализе можно было однозначно выделить и декодировать переносимую информацию, а из нее исходный сигнал.

Сжатие РС может быть как без потерь (архивация), так и с потерями. В настоящее время применяется множество алгоритмов сжатия речи. Они могут быть реализованы как аппаратнными, так и программными методами. Условно все существующие кодеки можно разделить на три группы:

1.Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ), появившиеся в конце 50-х годов и использующиеся сегодня в системах традиционной телефонии. В большинстве случаев, представляют собой сочетание АЦП/ЦАП.

.Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом посредством специализированных DSP(Digital Signal Processor). Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.

Под кодированием подразумевается преобразование РС в некоторый «другой» сигнал, который можно представить с меньшим числом разрядов, что в итоге повысит скорость передачи данных.

В современных цифровых системах регистрации, передачи и хранения речевой информации с целью уменьшения объема, занимаемого информацией на физических носителях, или скорости ее передачи по цифровым каналам связи применяются различные методы сжатия речи. В таких системах речевой сигнал, преобразованный в цифровой вид, перед записью на носитель или передачей кодируется при помощи специального алгоритма сжатия, а при воспроизведении с носителя или на приеме - декодируется. Как известно, речевой сигнал в информационно - коммуникативном плане обладает определенной избыточностью, не влияющей на смысловое содержание речевой посылки. При этом сжатие речи возможно за счет частичного удаления этой избыточности, что может не уменьшать разборчивости и качества слухового восприятия речи, но, вместе с тем, лишить ее особых признаков, необходимых для экспертной идентификации речи. Базируясь на основных принципах сжатия информации, при сжатии звука используются особенности звуковой информации, особенности природы, механизмов проихождения звука и звуковосприятия.

После того как аналоговый сигнал преобразован в цифровую форму, к нему можно применять различные способы обработки, которые невозможно использовать при работе с чисто аналоговым сигналом. В частности, оцифрованный сигнал перед передачей можно сжать, уменьшив таким образом пропускную способность, необходимую для передачи одного голосового соединения. Методы сжатия речи разрабатываются для достижения определенных целей - нужных скоростей битового потока, качества сигнала, задержки и сложности. Чтобы гарантировать взаимную совместимость устройств кодирования и декодирования, организации по стандартам, такие как ITU-Т, ISO и ETSI, определяют эти цели в соответствии с предназначением каждого метода. До сих пор, при некоторых условиях предпочитают аналоговые сети цифровым, поскольку в последних речь часто звучит «механически», случаются посторонние звуки и т. д. И все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Для передачи речи в аналоговой телефонии когда-то отказались от составляющих лежащих вне полосы частот 0,3-3,4 кГц, хотя спект речи лежит примерно в диапазоне от 50 до 10000 Гц. Это ограничение дапазона частот ухудшило восприятие ряда звуков, например - шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра, но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь. Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.

MOS(mean opinion score) - была введена для средней субъективной оценки качества речи, психологической реакции человека на воспроизводимую речь. Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей.

Многие системы сжатия звука имеют механизмы адаптации к характеру звука посредством изменения параметров и алгоритмов кодирования. Основные механизмы:

·Изменение размера и формы окна анализа. (в AAC окно может быть 2 размеров: 512 или 2048 выборок, и 2 различных форм).

·Выбор кодовых книг для упаковки коэффициентов. В различном виде присутствует практически по всех кодеках. (AAC использует 11 различных кодовых книг для кодирования спектральных коэффициентов).

·Выделение и раздельное кодирование шума. (Perceptual noise substitution в AAC).

·Экстраполяция спектра и кодирование гармоник. (в AAC).

·Адаптивное линейное предсказание и кодирование ошибки. (LPC, FLAC).

Большую трудность для сжатия представляет - озвученная речь, образуемая с помощью звуковых связок человека. Скорость периодических колебаний связок задает так называемую частоту основного тона (ОТ) - периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за первый ОТ (возбуждение фильтра) и второй голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие. В настоящее время наиболее известны методы сжатия - Audio MPEG, PASC и ATRAC. Все они используют так называемое кодирование для восприятия (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.

Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.

Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят как физические характеристики носителя звука - размеры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирования и защиты от ошибок и т.п. При использовании универсального информационного носителя широкого применения - например, компьютерного гибкого или жесткого диска - под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся низкоуровневая часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.

Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие: CD (Compact Disk - компакт-диск) - односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk - Digital Audio). Для защиты от ошибок используется двойной код Рида-Соломона с перекрестным перемежением (Cross Interleaved Reed-Solomon Code, CIRC) и модуляция кодом Хэмминга 8-14 (Eight-to-Fourteen Modulation, EFM).

ИКМ-приставка (PCM deck) - система для преобразования цифрового звукового сигнала в псевдовидеосигнал, совместимый с популярными видеоформатами (NTSC, PAL/SECAM), и обратно. ИКМ-приставки применяются в сочетании с бытовыми (VHS) или студийными (S-VHS, Beta, U-Matic) видеомагнитофонами, используя их в качестве устройств чтения/записи.

Устройства работают с 16-разрядным линейным квантованием на частотах дискретизации 44.056 кГц (NTSC) и 44.1 кГц (PAL/SECAM), и позволяют записывать двух- или четырехканальную цифровую сигналограмму. По сути, такая приставка представляет собой модем (модулятор-демодулятор) для видеосигнала.DAT (Stationary head Digital Audio Tape - цифровая звуковая лента с неподвижной головкой) - система наподобие обычного кассетного магнитофона, запись и чтение в которой ведутся блоком неподвижных тонкопленочных головок на ленте шириной 3.81 мм в двухсторонней кассете размером 86 x 55.5 x 9.5 мм. Реализует 16-разрядную запись двух или четырех каналов на частотах 32, 44.1 и 48 кГц.DAT (Rotary head Digital Audio Tape - цифровая звуковая лента с вращающейся головкой) - система наподобие видеомагнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифровой записи, системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73 x 54 x 10.5 мм, с лентой шириной 3.81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты - 8.15 мм/с, скорость вращения блока головок - 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей - четырехканальным) сигналом на частотах дискретизации 44.1 и 48 кГц с 16-разрядном линейным квантованием, и 32 кГц - с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты - 80..240 минут в зависимости от скорости и длины ленты. Бытовые DAT-магнитофоны обычно оснащены системой защиты от незаконного копирования фонограмм, не допускающей записи с аналогового входа на частоте 44.1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.(Digital Audio Stationary Head) - система с записью на магнитную ленту шириной 6.3 и 12.7 мм в продольном направлении неподвижными головками. Скорость движения ленты - 19.05, 38.1, 76.2 см/с. Реализует 16-разрядную запись с частотами дискретизации 44.056, 44.1 и 48 кГц от 2 до 48 каналов.(Alesis DAT) - собственная (proprietary) система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фирмой Alesis.

Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной синхронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т.п. Модель Meridian (ADAT Type II) использует 20-разрядное квантование на частотах 44.1 и 48 кГц.(Digital Compact Cassette - цифровая компакт-кассета) - бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты - 4.76 см/с, максимальное время звучания такое же, как при аналоговой записи.

Частоты дискретизации - 32, 44.1, 48 кГц, разрешение - 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В настоящее время система DCC признана неперспективной.(MiniDisk) - бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70 x 67.5 x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофонического звучания. При обмене со внешними устройствами используется формат 16-разрядных отсчетов на частоте 44.1 кГц, однако на сам диск сигнал записывается после сжатия методом ATRAC.RIFF/WAVE (Resource Interchange File Format/Wave - формат файлов передачи ресурсов (волновая форма) - стандартный формат звуковых файлов в компьютерах IBM PC. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каждый из которых представляет собой волновую форму или вспомогательную информацию - режимы и порядок воспроизведения, пометки, названия и координаты участков волны и т.п. Содеpжит звук - моно/стеpео, 8/16 pазpядов, с pазной частотой оцифpовки. Файлы этого формата имеют расширение .WAV.AIFF (Audio Interchange File Format - формат файла обмена звуком) - стандартный тип звукового файла в системах Apple Macintosh.- одноканальный фоpмат чистой оцифpовки, не содеpжащий заголовка. Обычно оцифpовка хpанится в 16-pазpядном знаковом (signed) фоpмате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.и CMF - фоpматы пpедставления оцифpованного звука и паpтитуp от фиpмы Creative Labs, AIFF (Audio-...) - фоpмат звуковых файлов на Macintosh и SGI, AU - фоpмат SUN/NeXT.(Adaptive Transform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Например у MPEG-1 имеются три уровня (layers) для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с. Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска.

Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).MPEG используется в компьютерных звуковых системах, CD-i/DVD, звуковых дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.(Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.

Существуют разные стандарты MPEG (как их еще иногда называют фазы - phase): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7.состоит из трех частей: Audio, Video, System (объединение и синхронизация двух других).

По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду, с такой же скоростью, как и односкоростной CD-ROM проигрыватель, и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. Для большего сжатия в B и P кадрах используется алгоритм предсказания движения

Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование.

Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека - если, например, идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука. Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.

В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layerов снизу вверх, т.е. Decoder (декодировщик) для Layer II будет также распознавать Layer I.

Синхронизация и объединение звука и видео, осуществляется с помощью System Stream, который включает в себя:

·Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.

·Компрессионный слой, содержащий видео и аудио потоки.

Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).

Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 Кгц (System Clock Reference - SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).

Параметры MPEG-1 (утверждены в 1992): 48, 44.1, 32 Кгц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму - другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 Кгц представлены в таблице.

Таблица 1.6

Способ кодированияСкорость передачи kbps (килобит в сек.)Коэффициент сжатияLayer I1921:4Layer II128..961:6..8Layer III64..561:10..12

Компрессия по стандарту MPEG-2 кардинально меняет положение вещей. Более 97% цифровых данных, представляющих видео сигнал дублируются, т.е. Являются избыточными и могут быть сжаты без ущерба качеству изображения. Алгоритм MPEG-2 анализирует видеоизображение в поисках повторений, называемых избыточностью. В результате процесса удаления избыточности, обеспечивается превосходное видеоизображение в формате MPEG-2 при более низкой скорости передачи данных. По этой причине, современные средства поставки видеопрограмм, такие как цифровые спутниковые системы и DVD, используют именно стандарт MPEG-2.

Изменения в Audio:

·Появились новые виды частот 16, 22.05, 24 КГц.

·Поддержка многоканальности - возможность иметь 5 полноценных каналов (left, center, right, left surround, right surround) + 1 низкочастотный (subwoofer).

·Появился AAC (Advanced Audio Coding - прогрессивное кодирование звука) стандарт - обеспечивает очень высокое качество звука со скоростью 64 kbps per channel (килобит в сек. на канал), возможно использовать 48 основных каналов, 16 низкочастотных каналов для звуковых эффектов, 16 многоязыковых каналов и 16 каналов данных. До 16 программ может быть описано используя любое количество элементов звуковых и других данных. Для AAC существуют три вида профиля - Main (используется когда нет лишней памяти), Low Complexity (LC), Scalable Sampling Rate (SSR, требуется декодер с изменяемой скоростью приема данных).

Декодеры должны быть:

1."forwards compatible" (вперед совместимыми) - MPEG-2 Audio Decoder понимает любые MPEG-1 аудио каналы.

2."backward compatible" (обратно совместимыми) - MPEG-1 Audio Decoder должен понимать ядро MPEG-2 Audio (L-канал, R-канал)

3."matrixing" (матрицируемыми) - MPEG1 Audio Decoder должен понимать 5-ти канальный MPEG-2 (L = left signal + a * center signal + b * left surround signal, R = right signal + a * center signal + b * right surround signal)

4.MPEG-1 Звуковой декодер не обязан понимать MPEG-2 AAC.

В следствии зтого совершенно спокойно можно использовать MPEG-1 Vidio + MPEG-2 Audio или наоборот MPEG-2 Audio + MPEG-1 Video.

Изменения связаные с алгоритмами кодирования: Точность частотных коэффициентов выбирается пользователем (8, 9, 10, 11 бит на одно значение - в MPEG-1 только 8 бит).

·Нелинейный quantization процесс (разбиение непрерыных данных в дискретные).

·Возможность загрузить quantization matrix (матрица преобразований непрерыных данных в дискретные) перед каждым кадром.

·Новые режимы предсказания движения (16x8 MC, field MC, Dual Prime)

Системный уровень MPEG-2, обеспечивает два уровня объединения данных: Packetized Elementary Stream (PES) - разбивает звук и видео на пакеты.

1.Второй уровень делится на:

·MPEG-2 Program Stream (совместим с MPEG-1 System) - для локальная передача в среде с маленьким уровнем ошибок

·MPEG-2 Transport Stream (Рис. 6) - внешнее вещание в среде с высоким уровнем ошибок - передает транспортные пакеты (длиной 188 либо 188+16 бит) двух типов (сжатые данные - PES - и сигнальную таблицу Program Specific Information -- PSI). - стандарт для низкоскоростной передачи (64 kbps), краткое описание: Разделяет картинку на различные элементы, называемые media objects (медиа объекты).

·Описывает структуру этих объектов и их взаимосвязи чтобы затем собрать их в видеозвуковую сцену.

·Позволяет изменять сцену, что обеспечивает высокий уровень интерактивности для конечного пользователя.

Видеозвуковая сцена состоит из медиа объектов, которые объеденены в иархическую структуру:

·Неподвижные картинки (например фон)

·Видио объекты (говорящий человек).

·Аудио объекты (голос связанный с этим человеком).

·Текст связанный с данной сценой.

·Синтетические объекты - объекты которых не было изначально в записываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например синтезируется говорящая голова).

·Текст связанный с головой из которого в конце синтезируется голос.

Такой способ представления данных позволяет: Перемещать и помещать медиа объекты в любое место сцены.

·Трансформировать объекты, изменять геометрические размеры.

·Собирать из отдельных объектов составной объект и проводить над ним какие-нибудь операции.

·Изменять текстуру объекта (например цвет), манипулировать объектом (заставить ящик передвигаться по сцене)

·Изменять точку наблюдения за сценой. J - стандартное расширение MPEG-4 в котором используются Java - элементы.- не является продолжение MPEG как такового. MPEG - 7 будет обеспечивать стандарт для описания различных типов мультимедийной информации (а не для ее кодирования), чтобы обсепечивать эффективный и быстрый ее поиск. MPEG-7 официально называют - Multimedia Content Description Interface (Интерфейс описания мультимедиа данных). MPEG-7 определяет стандартный набор дискриптеров для различных типов мультимедиа информации, так же он стандартизует способ определения своих дискриптеров и их взаимосвязи (description schemes). Для этой цели MPEG-7 вводит DDL (Description Definition Language - язык описания определений). Основная цель применения MPEG-7 это поиск мультимедиа информации (так же как сейчас мы можем найти текст по какому-нибудь предложению), например:

·Музыка. Сыграв несколько нот на клавиатуре можно получить список музыкальных произведений, которые содержат такую последовательность.

·Графика. Нарисовав несколько линий на экране, получим набор рисунков содержащих данный фрагмент.

·Картины. Определив объект (задав его форму и текстуру) получим список картин, содержащих оный.

·Голос. Задав фрагмент голоса певца, получим набор песен и видео роликов где он поет. - (Multimedia & Hypermedia Expert Group - экспертная группа по мультимедиа и гипермедиа) - определяет стандарт для обмена мультимедийными объектами (видео, звук, текст и другие произвольные данные) между приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и вещания) с использованием MHEG object classes. Он позволяет программным объектам включать в себя любую систему кодирования (например MPEG), которая определена в базовом приложении. MHEG был принят DAVIC (Digital Audio-Visual Council - совет по цифровому видео и звуку). MHEG объекты делаются мультимедиа приложениями используя multimedia scripting languages.

Утверждается, что MHEG - будущий международный стандарт для интерактивного TV, так как он работает на любых платформах и его документация свободно распространяема.- сокращение от MPEG Layer3. Это один из потоковых форматов хранения и передачи аудиосигнала в цифровой форме, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.

Передача данных происходит потоком независимых отдельных блоков данных - фреймов, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма. Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу. При декодировании сигнал формируется из последовательности декодированных фреймов.

Высокая степень компактности MP3 по сравнению с PCM 16 Bit Stereo 44.1 kHz и ему подобными форматами при сохранении аналогичного качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества. Сжатие достигается учетом особенностей человеческого слуха - эффекта маскирования, а также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов.

Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.

Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.

После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

На практике схема несколько сложнее. Например, необходимо согласовываться с требованиями ширины потока (bitrate), варьируется от наибольшего, 320 kbs (320 килобит в секунду, также пишут kbs, kbps или kb/s), до 96 kbs и ниже.

Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо ещё.В зависимости от кодера это приводит при повышении битрейта к разного рода релаксациям при отборе сохраняемой части исходного сигнала, а при понижении - наоборот, к ужесточению критериев.

Подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования.

На проведенных тестах специально приглашенные опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в MP3 с коэффициентом сжатия 6:1, то есть с битрейтом в 256kbs.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования.

В рамках MP3 кодирование стереосигнала допустимо четырьмя различными методами: Dual Channel - Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал - скажем, текст на разных языках. Выставляется в некоторых кодерах по требованию.- Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. В документации к mp3enc замечено, что этим, например, избегается кодирование тишины в одном канале, когда в другом есть сигнал.

Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs.Stereo (MS Stereo) - Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты.

Режим выставлен по умолчанию продукцией FhG IIS, а также кодером Lame, для битрейтов от 112kbs до 192kbs.Stereo (MS/IS Stereo) - Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.

В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах.

Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже (другими качественными кодерами этот режим практически не используется).

Но, как уже говорилось, при применении данного режима происходит потеря фазовой информации, также теряется любой противофазный сигнал.

На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие которых нередко серьезно меняет эмоциональную окраску композиции, придает или лишает ее таких эффектов, как ощущение «кристальной» чистоты звука (в той мере, в которой она присутствует в CD Audio). Кроме того, в соответствии с психоакустической моделью, высшие (выше 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом.

Далее, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 kbs оказываются смазаны верхние частоты, наблюдается эффект «шепелявости», в то время как у ISO-based вместо этого - «звон». Скорее всего, это связано с разным отношением к частотам выше 16 kHz у данных кодеров. В кодере Lame, кстати, они по умолчанию срезаются, что увеличивает качество кодирования на 128kbs.

На высших битрейтах при последовательном следовании психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании кодера. Впрочем, из-за не слишком большой озабоченности FhG IIS качеством его кодеров на высоких битрейтах уже не раз оказывалось, что новая версия звучит иногда даже несколько хуже старой. Полагаю, причина кроется в недостаточном или неправильном ослаблении ограничений психоакустической модели при повышении битрейта.- термин VQF происходит от расширения (extension) имени файла содержащего звук сжатый при помощи алгоритма TwinVQ. Этот стандарт сжатия более эффективный и более качественный чем Mpeg Audio Layer3.

Алгоритм TwinVQ был разработан для более мощных процессоров чем требовалось для MP3, однако это сказалось только на сжатии данных в TwinVQ. Изготовление VQF файлов происходит очень медленно. Примерно в три раза медленнее чем аналогичный процесс для Mpeg Audio Layer3 (используя MMX). Нельзя сказать, что VQF файл превосходит или уступает MP3 файлу, это просто различные файлы. При кодировании музыки в MP3, процесс кодирования вносит искажения в звук и вырезается ряд частот. В отличие от этого, когда Вы кодируете музыку в TwinVQ, мелкие незначительные детали теряются и звук сглаживается (softened). Так при 96 Kbps VQF файл выглядит более близким к оригиналу чем при 128Kbps MP3, но он менее детален. Две другие проблемы - это спатализация (Spatalisation) и пре-эхо.использует метод кодирования подобно MP3, AAC или Dolby AC-3. Хотя он и использует некоторые классические средства использованные в MP3 (bitstream) или AAC (interframe backward prediction), но кодирование музыки отличается в корне. В этом методе, индивидуальные биты музыкальных данных непосредственно не кодируются, а объединяются в сегменты (вектора). Эти вектора сравниваются со стандартными образцами, которые подготовлены заранее. Выбирается стандартный вектор, который обеспечивает ближайшее соответствие, и количество, связанное с этим образцом передается как код сжатия. Данные упаковывается в длинный фреймовый режим или короткий фреймовый режим (8 subframes) согласно константе bitrate для того, чтобы повысить устойчивость к ошибке. Искажения сводятся к минимуму, так что музыка и другие звуки успешно воспроизводятся с качеством очень близким к оригиналу.

Технология аудиосжатия TwinVQ включена в стандарт MPEG-4.

1.6 Структура устройства

Обобщённая структура устройства с определёнными оговорками сводится к базовым элементам, реализуемым соответствующими микросхемами.

Кодер обеспечивает приём сигнала с одного из входов, оцифровку и декодирование в соответствии с выбранным стандартом кодирования и передачу полученных данных следующему элементу - контроллеру. Контроллер выполняет ключевую в организации потоков оцифрованных данных между элементами устройства. Он, в простейшем случае, осуществляет необходимые цифровые преобразования данных, организует их хранение в буфере памяти - третьем элементе устройства и пересылку данных на устройства дальнейшей обработки сигнала посредством их передачи четвёртому элементу - устройству ввода-вывода.

Для сокращения избыточности сигнала целесообразно использование процессорного метода кодирования. В составе устройства необходимо предусмотреть ЗУ для хранения управляющей программы процессора. Кроме того, для захвата заданной продолжительности без потери информации, устройство должно включать ОЗУ значительного объёма.

В состав устройства входят следующие функциональные блоки:

) Блок аналоговой обработки

Подлежащий обработке сигнал поступает на вход системы. Этот сигнал возможно подвергнуть предварительным преобразованиям в блоке аналоговой обработки для упрощения последующих цифровых преобразующих устройств.

) Блок аналого-цифрового преобразования (АЦП).

В данном блоке аналоговый сигнал дискретизируется, квантуется и предварительно кодируется (например, по методу ИКМ). Так как преобразование происходит в режиме реального времени, то необходимо использовать АЦП с частотой дискретизации 13,5 МГц и выше.

) Блок цифровых преобразований

В блоке цифровых преобразований в реальном времени производится предварительная обработка цифрового сигнала, включающие в себя операции, которые могли быть исключены из аналогового части, так как цифровые методы имеют преимущества в точности, в простоте алгоритма преобразования и в компактности оборудования. Данный блок также может осуществлять преобразования кодировки сигнала.

) Устройство управления

Выполняет ключевую роль в организации потоков оцифрованных данных между элементами устройства. Он организует их хранение в буфере памяти, пересылку данных для обработки в арифметическом устройстве и передачу обработанных данных на внешние устройства посредством устройства ввода-вывода.

) Арифметическое устройство

Как указывалось, в полученном сигнале содержится значительная избыточность, которая может быть в определённой степени сокращена путём дополнительного, более эффективного кодирования в арифметическом устройстве, которое, управляясь по заданной программе блоком управления, реализует совместно с оперативным запоминающим устройством (ОЗУ) заданный алгоритм обработки. Было принято решение в пользу использования в качестве кодирующего устройства цифрового процессора обработки сигналов, что позволит использовать различные методы кодирования, в зависимости от сферы применения конечного устройства.

) Оперативное запоминающее устройство (ОЗУ) Оперативное запоминающее устройство используется для записи, хранения и считывания данных, предназначенных для обработки арифметическим устройством и пересылки, посредством устройства ввода-вывода, во внешний канал связи. Так же возможно использовать ОЗУ для хранения кодов программы, загружаемых с внешних источников.

) Устройство ввода-вывода осуществляет обмен информацией с внешними устройствами.

1.7 Разработка электрической принципиальной схемы устройства

1.7.1 Выбор элементной базы

При выборе элементной базы необходимо учитывать следующие основные технические и эксплуатационные требования у проектируемому устройству:

быстродействие;

энергопотребление;

стоимость;

условия хранения и эксплуатации (температурный диапазон, давление, влажность);

срок хранения и эксплуатации;

механические воздействия (вибрация, удары, перегрузки);

специальные воздействия (радиация, электромагнитные излучения).

Как указывалось ранее, для выполнения разнообразных операций над исходным сигналом возможно использование различного рада аналоговых микросхем. Однако использование достижений в области быстродействующих цифровых интегральных схем позволяет многие из этих предварительных операций по обработки выполнить в цифровой форме, что во многих случаях приводит к улучшению качества и повышению компактности, надёжности и простоты использования устройств обработки. Таким образом, можно сделать вывод о целесообразности использования на входе устройства захвата специализированных СБИС цифровых кодеров.

Такие цифровые кодеры широко представлены различными производителями (Philips Semiconductor, Analog Devices, Texas Instrumental, SEMTECH Microelectronics и другие) и имеют во многом идентичные характеристики. Выбор был остановлен на 16-битном аналого-цифровом и цифро-аналоговом кодере для голосовых устройств - XE3006l019 фирмы SEMTECH Microelectronics

Характеристики XE3006l019 :

напряжение питания 1,8 - 3,6 В.

частота 4-48 кГц;

стандартный динамический диапазон 78 дБ.

При рассмотрении возможных разных вариантов построения устройства было принято решение в пользу использования процессорного метода обработки с использованием цифровых процессоров обработки сигналов.

При выборе микропроцессора необходимо учитывать требования по быстродействию, разрядности, потребления энергии и его стоимости. Применение слишком дорогих процессоров не будет оправдано.

С учётом рассмотрения некоторых характеристик процессоров, объёмом внутрикристальной памяти, требованиям по быстродействию, точности вычисления и функциональности, а так же учитывая возможность снижения потребляемой мощности и стоимости, целесообразно выбрать цифровой процессор MSP430F149 фирмы Texas Instruments. Данный процессор имеет низкое потребление питания - 1,8-3,6 Вольт; имеет расширенные возможности отладки; содержит диспетчер внешней памяти с поддержкой SDRAM (синхронного динамического ОЗУ), SRAM (статического ОЗУ), FLASH (ПУЗ с электрической перезаписью) и простого ПЗУ. Процессор предоставляет возможность динамического управления энергопотреблением и быстродействием.

Система периферии процессора так же включает:

-таймеры общего назначения;

-универсальный асинхронный приёмопередатчик;

-часы реального времени;

-сторожевой таймер.

Вся периферия, кроме входов-выходов общего назначения, часов реального времени, и таймеров, поддерживаются гибкой структурой прямого доступа к памяти (DMA). Различные внутренние шины обеспечивают достаточную пропускную способность, чтобы не останавливать ядро процессора, даже когда активны все, внутренняя и внешняя периферия.

Арифметические логические устройства исполняют стандартный набор арифметических и логических действий над данными. Включено много специальных инструкций для ускорения различных задач обработки сигналов.

1.7.2 Разработка принципиальной схемы

В качестве кодирующего устройства аудио-сигнала была выбрана микросхема XE3006l019 (D1). Данной ИМК в цепях подключения, производителем микросхемы, рекомендуется установка разделительных конденсаторов и резисторов для согласования с линией связи. Также, для работы задающего генератора, необходима установка кварцевого резонатора. По документации на данную ИМК неиспользованные выводы допускается оставлять неподключёнными.

Для непосредственного захвата аудио-сигнала в устройство должен быть встроен микрофон высокой чувствительности.

Для реализации проектируемого устройства применён цифровой процессор обработки сигналов MSP430F149 (D3). Стабилизация задающего генератора процессора так же требует установки кварцевого резонатора. Внутренняя рабочая частота процессора и частота внешней шины устанавливаются программно, настройкой соответствующих множителей.

Проектируемая микропроцессорная система кроме процессора и кодирующего устройства содержит в себе оперативное и постоянное запоминающие устройства и схему ввода-вывода данных.

Оперативное запоминающее устройство используется для хранения обрабатываемых данных, а постоянное запоминающее устройство - для хранения программ и используемых констант.

При организации внешнего ОЗУ необходимо задаться требуемым объёмом памяти. Для реализации оперативной памяти применяют микросхемы статических и динамических ОЗУ. Статические модули имеют существенно меньшую вместимость, по сравнению с микросхемами динамической памяти, но зато они проще в применении и во многих случаях предпочтение отдаётся именно им. Однако для реализации данного устройства требуется значительный объём памяти, кроме того сложности в управлении динамическим ОЗУ играют незначительную роль, так как используемый процессор содержит контроллер управления такого рода устройствами. Исходя из этого, а так же учитывая разрядность шины данных процессора и типовую организацию выпускаемых микросхем оперативной памяти, объём внешнего ОЗУ был принят равным 32М´16 (512 Мб), для реализации которого использована микросхема K9W8GO8U1M-YCB, фирмы Samsung, информационной ёмкостью 32М´16, временем доступа 5,4 нс, максимальной частотой доступа 133 Мгц и максимальным током потребления 255 мА.

Сброс процессора и других требующих того, компонентов устройства захвата производится микросхемой LM8365BALMF22 при подаче питания, а так же при падении питающего напряжения ниже допустимого уровня.

Так как процессор полностью совместим со стандартом IEEE 1149.1, так же известным как стандарт JTAG (объединённая рабочая группа по автоматизации тестирования), то для возможности использования ТАР (тестовый порт) процессора был добавлен разъём Х3, обеспечивающий доступ средствам контроля и управления процессом конечного устройства.

Использование ТАР позволит разработчику загрузку кода, просмотр и модификацию памяти, регистров и стеков процессора без воздействия на нормальную работу и синхронизации конечной системы.

Использование USB во многих случаях допускает питание устройства от кабеля, по которому кроме информационных сигналов передаётся и питающее напряжение 5В. Однако рабочий ток по стандарту USB не должен превышать 500 мА, кроме того, если хаб к которому осуществляется подключение не может обеспечить заявленный устройством ток, то оно не конфигурируется и, следовательно, не может быть использовано. Так как потребление схемы близко к максимальному допустимому спецификацией USB, то был выбран вариант питания устройства от внешнего источника напряжения 5 вольт, подключаемому к разъёму Х5.

В последнее время в силу развития технологии интегральных микросхем для обеспечения помехоустойчивости и стабильности питающих напряжений стало целесообразно использовать маломощные интегральные стабилизаторы, обладающие малыми габаритами и низкой стоимостью. Для разрабатываемого устройства был использован интегральный стабилизатор напряжения TPS61070DDC. Кроме того, процессору, для питания ядра, требуется регулируемое напряжение обеспечение которого реализовано с использованием внутреннего регулятора процессора и транзистора IRLML6302.

Низкочастотные помехи, проникающие в систему по шинам питания блокируются с помощью конденсаторов, подключённых в каждой цепи питания. Кроме того, для обеспечения помехоустойчивости по высокой частоте на печатных платах с использованием быстродействующих микросхем и в соответствии с рекомендациями производителей используемых ИМС, установка развязывающих ёмкостей по высокой частоте между цепью питания и общим проводом необходима для каждого вывода питания в непосредственной близости от этих выводов. На основании сказанного для установки на плате было выбрано 28 конденсаторов типа К10-69В. Также, для уменьшения влияния на аналоговые сигналы помех, возникающие в цифровом сегменте схемы, установлена разделительная индуктивность между цепями питания цифровой и аналоговой частей устройства.

Схема электрическая принципиальная проектируемого устройства приведена в графической части проекта.

2. Конструкторско-технологический раздел

2.1 Информационно патентный поиск

При конструировании устройств в первую очередь необходимо провести патентное исследование, результатом которого является выявление патентов и авторских свидетельств, по тематике наиболее близкой к теме данного дипломного проекта. Патентный поиск является очень сложной научно-исследовательской работой. Требуется использование информации, полученной в доверительном источнике. В ходе этой работы была найдена следующая близкая по техническим решениям разработка - цифровой рекордер «ГНОМ-М».

Цифровой рекордер «ГНОМ-М» предназначен для работы в сложной акустической обстановке в помещении и на улице. Цифровая звукозапись осуществляется во встроенную энергонезависимую память (EEPROM) с использованием встроенного или выносного высокочувствительного и малошумящего электретного микрофона. Объем памяти составляет 224 Mб, что позволяет без искажения записывать речевые сигналы со сжатием по мю-закону продолжительностью до 9 часов в полосе 200-3600 Гц и до 4 часов в полосе 200-7200 Гц. Высокое качество записи (соотношение сигнал/шум в сквозном канале - 72 дБ, коэффициент нелинейных искажений менее 0.05%) обеспечивает необходимый уровень разборчивости речи. Прослушивание и все другие операции с записанной информацией осуществляются только с помощью ПК под управлением специального программного обеспечения.

По результатам тестов устройство имеет скорость передачи данных 1,92 Мб/с на ведущую ЭВМ.

Недостатками данного устройства являются относительно большое количество интегральных микросхем, а так же устаревшие микросхемы. Целью проектируемого устройства является улучшение характеристик при меньших массогабаритных показателях, энергопотребление и большей надёжности. Положительный эффект достигается за счёт использования современной элементной базы. В спроектированном устройстве использован современный процессор цифровой обработки сигналов с большим объёмом памяти и высокой вычислительной производительностью, что повышает быстродействие устройства по сравнению с аналогом. Использование микропроцессора, работающего под управлением программы, позволяет легко вносить изменения в параметры и структуру алгоритма обработки путём изменения в программном обеспечении.

Разрабатываемый в данном проекте вариант имеет более высокие показатели надёжности, меньшие массогабаритные показатели, меньшее энергопотребление.

На основе этого можно сделать вывод, что применение данного устройства и вида его реализации, является целесообразным, т. к. оно отвечает требованиям, предъявляемым к современной технике.

2.2 Разработка технического задания

Техническое задание разрабатывается на основе исходных требований заказчиков, результатом выполнения научных исследований и экспериментальных работ, научного прогнозирования, анализа последних достижений и технического уровня отечественной и зарубежной техники и технологии, изучения патентной информации.

В общем случае, в соответствии с ГОСТ 15.001-73, техническое задание должно включать: наименование аппаратуры и область применения, основание для разработки, цель и назначение разработки, источники разработки, технические требования, экономические показатели, стадии и этапы разработки, порядок контроля и приёмки.

1.Наименование аппаратуры:

Цифровая аппаратура обработки речевых сигналов. Относится к наземной, стационарной, гражданской аппаратуре.

.Область применения:

Вычислительные комплексы обработки на базе ЭВМ.

.Назначение аппаратуры:

Захват и аналого-цифровое преобразование аудио-сигнала.

.Технические характеристики:

Коэффициент качества передачи (MOS) 3,5;

Задержка передачи не более 0,125 мс;

Динамический диапазон речи 40 дБ.

.Требования к конструкции изделия:

- устройство предназначено для работы в составе вычислительного комплекса на базе ПЭВМ, связь с которой, осуществляется посредством интерфейса USB;

устройство должно представлять собой один печатный узел, помещённый в компактный корпус;

конструкция должна удовлетворять требованиям ремонтопригодности согласно ГОСТ 21.623-76, техники безопасности по ГОСТ 12.002-80 и технологичности по ГОСТ 18.8310-73;

проектируемое изделие должно допускать непрерывную работу в течении 8 часов и выполнять функции встроенной автономной проверки работоспособности.

6.Требования по живучести и устойчивости к внешним воздействиям:

предельные допустимые значения параметров окружающей среды, воздействующих на конструкцию, должны соответствовать ГОСТ РВ 20.39.304-98 (гр. 1.1) для данной группы аппаратуры.

.Требования по надёжности:

Среднее время наработки на отказ 3000 часов.

.Требования к эргономике и эстетике:

Конструкция должна соответствовать эргономическим требованиям по ГОСТ 16.035-81.

.Технико-экономические требования:

Создаваемое устройство должно быть эффективнее своего аналога, т. е. Превосходить его по качеству функционирования, степени миниатюризации и технической целесообразности.

.Требования по безопасности:

11.Разрабатываемое устройство должно обладать экологической совместимостью, т. е. Процесс создания, функционирования и утилизации устройства не должен наносить недопустимый ущерб среде обитания людей и непосредсвенно самим людям.

2.3 Разработка конструкции печатного узла

При проектировании печатных узлов необходимо в первую очередь произвести выбор элементной базы, варианта конструкции узла и типа электрического соединителя.

Для обеспечения надёжности устройства необходимо использование элементной базы с низкой вероятностью отказа и удовлетворяющей требованиям по параметрам внешних воздействий окружающей среды. Предельные значения параметров окружающей среды, воздействующих на конструкцию для данной аппаратуры, приведены в таблице 2.1.

Таблица 2.1 Предельные значения параметров окружающей среды

Воздействующие факторыПараметры воздействийВоздействующие факторыПараметры воздействийВибрация Частота, Гц Ускорение, м/с210-70 19,6Влажность относительная Насыщенность, % Температура, ○К93 298±10Ударные сотрясения Ускорение, м/с2 Длительность, мс98 5-15Акустические шумы Уровень, дБ Частота, Гц85-125 50-1000Одиночные удары Ускорение, м/с2 Длительность, мс196 1-5Давление атмосферное Максимальное, Па Минимальное, Па110000 55000Температура максимальная Рабочая, ○К Предельная, ○К323 333Линейные ускорения Замедление, g Центральное, g2-4 2-5Температура минимальная Рабочая, ○К Предельная, ○К263 253Ветровая нагрузка Рабочая, м/с Предельная, м/сдо 50 до 70

Элементная база выбрана с учётом функционального назначения аппаратуры, условий эксплуатации и стоимости. Эксплуатационные параметры выбранной элементной базы приведены в таблице 2.2.

Таблица 2.2 Эксплуатационные параметры используемых ЭРЭ

ЭлементТемператураВибрацияОднократные ударыЛинейные ускоренияВлажностьМин.Макс.Ускор.Част.XE3006I019-40+805g1-1500150g250g98K9W8G08U1M-YCB-40+805g1-1500150g250g98MSP430F149-40+805g1-2000150g500g98LM8365BALMF22-40+1255g1-2000200g500g98TPS61070DDC-40+805g1-2000200g500g98SN74LVC1G00DBV-40+805g1-2000200g500g98SR0603-3R9MS -40+855g1-1500200g500g98SJK-8,192 МГц-40+805g1-2000150g500g98KX-327XS-32,768 кГц-40+805g1-2000150g500g98SP0103NC3-Y-40+855g1-2000200g500g98RLML6302-40+805g1-2000200g500g98Конденсаторы К10-69В-60+15520 м/с21-1500150 м/с225g98Резисторы Р1-12-0,125-60+8020 м/с21-2000150 м/с225g98вокодер звук речь схема

Исходя из ТЗ на изделие, требования к конструкции платы, материалу основания и проводящего рисунка, а также необходимость защиты от климатических, механических и других воздействий должны соответствовать первой группе жёсткости по ОСТ 4.077.000.

Навесные элементы устанавливаются в соответствии с вариантами по ГОСТ 29137-91 на одной поверхности печатной платы.

С учётом принципиальной электрической схемы, рекомендаций производителей и особенностей применения элементной базы, целесообразно использовать двухстороннюю печатную плату.

Печатная плата должна быть выполнена по четвёртому классу точности. Межслойные соединения осуществляются с помощью металлизированных отверстий. Монтажные отверстия так же должны быть металлизированными.

Для изготовления печатной платы выбран полуаддитивный метод получения проводящего рисунка (типовой процесс по ОСТ 4.ГО.101.219). Этот метод позволяет поучить рисунок с высокой точностью и обеспечить высокую плотность монтажа. Защитный рисунок формируется методом фотопечати, т. к. он является наиболее распространённым и обеспечивает высокую плотность и качество монтажа.

Выбранный класс точности позволяет получить высокую плотность монтажа, а следовательно, и минимизировать размеры печатной платы. Шаг координатной сетки выбираем 0,5 мм.

При выборе размеров печатной платы необходимо учитывать наличие по краям свободных полей, предназначенных для установки узла в корпус. С учётом конструкции корпуса, на плате будут установлены разъёмы для электрического соединения с внешними устройствами. Для фиксации платы в корпусе, на ней необходимо предусмотреть наличие монтажных отверстий под крепежные элементы. Необходимо убедиться, что данной площади платы будет достаточно для размещения всех необходимых элементов.

Необходимая площадь печатной платы рассчитывается так:

Площадь, занимаемая резисторами:;

Площадь, занимаемая конденсаторами:;

Площадь, занимаемая ИМС: ;

Площадь, занимаемая разъёмами: ;

Площадь, занимаемая монтажными отверстиями: ;

Площадь, занимаемая другими элементами: .

Коэффициент использования печатной платы: KИП=3.

С учётом этого площадь печатной платы будет равна:

В качестве материала основания выбираем двухсторонний фольгированный стеклотекстолит ФТС-2-20А (ТУ АУ 700.37.000). Выбор обусловлен группой жёсткости, условиями технического задания и многослойной технологией печатной платы.

2.3.1 Расчёт параметров проводящего рисунка

Расчёт конструктивных параметров печатных проводников с учётом технологических погрешностей получения защитного рисунка:

) Примем шаг координатной сетки равным 0,5 мм.

) Номинальное значение диаметров монтажных отверстий:

d=dэ+r+| Δdно|, где

dэ - максимальное значение диаметра вывода навесного элемента;

r = 0,2 - разность между минимальным значением диаметра отверстия с максимальным диаметром вывода устанавливаемого элемента;

Δdно = 0,1 мм - нижнее предельное отклонение номинального значения диметра отверстия.

а) Для конденсаторов dэ=0,6 мм; d=0,6+0,2+0,1=0,9 мм.

б) Для кварцевых резонаторов dэ=0,5 мм; d=0,5+0,2+0,1=0,8 мм.

в) Для разъёмов dэ=1 мм; d=1+0,2+0,1=1,3 мм.

Рассчитанные значения сводятся к предпочтительному ряду размеров монтажных отверстий: 0,7; 0,9; 1,1; 1,3; 1,5 мм.

В целях уменьшения количества типономиналов отверстий примем диаметр монтажного отверстия под кварцевые резонаторы, конденсаторы и разъёмы равными 0,9 мм.

) Определение номинальной ширины проводника:

t = tмд + | Δtно|, где

tмд = 0,1 мм - минимально допустимая ширина проводника для токов менее 0,5А;

| Δtно| = 0,05 мм - нижнее предельное отклонение ширины проводника.

t = 0,1 + 0,05 = 0,15 мм

) Расчёт зазора между проводниками:

s = sмд + | Δtво|, где

Δtво = 0,05 мм - верхнее предельное отклонение ширины проводника;

sмд = 0,15 - минимальное допустимое расстояние между соседними элементами;

s = 0,15 + 0,05 = 0,2 мм.

)Центры монтажных и переходных отверстий располагаются в узлах координатной сетки.

Диаметральное значение позиционного допуска расположения центров отверстий относительно номинального положения узла координатной сетки δр=0,05 мм. Диаметральное значение позиционного допуска расположения контактных площадок относительно их номинального положения δd=0,15 мм.

) диаметр контактной площадки равен:

D=(d+Δdво)+2bпг+Δtво+,2Δdтр+(δd2р2+Δtно2)1/2,

где Δdво=0,05 мм; bпг =0,05 мм; Δtво=0,05 мм; Δtно=0,05 мм; Δdтр=0,03 мм; δр=0,05 мм; δd=0,15 мм.

При d=0,9 → D=1,33 мм.

) Размеры контактных площадок для микросхем в корпусах типа 4 с шагом 0,5 мм и 0,8 мм выбраны согласно ГОСТ 291

-91 и составляют соответственно 1,25х0,25 мм и 1,5х0,3 мм.

) Расчёт минимального расстояния для прокладки 1-го проводника между контактными площадками:

l=(D1+D2)/2+tп+s(n+1)+δl, где

=1 - количество проводников;

δl=0,05 мм -диаметральное значение позиционного допуска расположения

а) Контактные площадки под выводы микросхем с шагом 0,5 D1=D2=0,25 мм:

l=(0,25+0,25)/2+0,15+0,2(1+1)+0,05=0,85 мм.

b) Контактные площадки под выводы микросхем с шагом 0,8 D1=D2=0,3 мм:

l=(0,3+0,3)/2+0,15+0,2(1+1)+0,05=0,9 мм.

c) Контактные площадки под выводы конденсаторов и кварцевых резонаторов D1=D2=1,33 мм: l=(1,33+1,33)/2+0,15+0,2(1+1)+0,05=1,93 мм.

Для микросхем с расстояние между выводами 0,5 и 0,8 мм, можно проводить прокладку проводников между выводами микросхем при выбранном классе точности платы. Расстояние между выводами применяемых разъёмов, конденсаторов и кварцевых резонаторов больше или равно 2,5 мм, поэтому, возможно производить прокладку проводников между выводами.

Расчёт конструктивных параметров печатных плат с учётом погрешностей получения защитного рисунка и технологических особенностей способа изготовления проводящего рисунка:

) Минимальное значение диаметра металлизированного отверстия:

) Максимальный диаметр просверленного отверстия:

) Погрешность расположения отверстия:

δотвоб=0,06+0,02=0,08 мм.

) Минимальный диаметр контактной площадки:

) Минимальный диаметр окна фотошаблона для контактной площадки:

шmin=Dmin-hp;

Dшmin=1,55-0,02=1,53 мм;

) Максимальный диаметр контактной площадки:

Dшmax= Dшmin+ Dш;

Dшmax=1,53+0,03=1,56 мм.

) Максимальный диаметр контактной площадки:

Dmax=Dшmax+Э+hp;

Dmax=1,56+0,02+0,02=1,6.

8) Минимальная ширина проводника:

tпmin=tп1min+1,5hпм+hp;

tпmin=0,12+1,50,005+0,02=0,15 мм.

) Минимальная ширина линии на фотошаблоне:

tшmin=tпmin-hг;шmin=0,15-0,05=0,1 мм.

) Максимальная ширина линии на фотошаблоне:

tшmax=tшmin+tгш;шmax=0,1+0,02=0,12 мм.

) Максимальная ширина проводника:

tпmax=tшmax+hг+hp+Э;пmax=0,12+0,05+0,02+0,02=0,21 мм.

) Минимальное расстояние между проводником и контактной площадкой:

S1min=L0-[Dmax/2+δкп+tпmax/2+δшт];1min=1,25-(1,6/2+0,095+0,21/2+0,03)=0,22 мм.

где L0 - расстояние между центрами рассматриваемых элементов.

) Минимальное расстояние между контактными площадками:


14) Минимальное расстояние между двумя проводниками:

S3min=L0-(tпmax+2δшт);3min=0,5-(0,21+20,06)=0,17 мм.

15) Минимальное расстояние между проводником и контактной площадкой на фотошаблоне:

4min=L0-(Dшmax/2+δкп+tпmax/2+δшткп);4min=1,25-(1,56/2+0,095+0,21/2+0,05+0,095)=0,16 мм.

) Минимальное расстояние между контактными площадками на фотошаблоне:

S5min=L0-(Dшmax+2δкп);5min=2,5-(1,56+20,095)=0,75 мм.

17) Минимальное расстояние между двумя проводниками на фотошаблоне:

S6min=L0-(tшmax+2δшт);6min=0,5-(0,12+20,06)=0,26 мм.

2.3.2

Похожие работы на - Проектирование устройства захвата и аналого-цифрового преобразования речевого сигнала

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!