ЦИФРОВОЙ ЗВУК

           Подробное описание процессов от оцифровки звука до воспроизведения и передачи по каналам связи на конкретных примерах сопровождающихся конкретными подсчетами.

 

   Представим звук в качестве синусойды, подаваемый на вход АЦП (аналогово-цифровой преброзаватель, в персональном компьютере являющийся линейным или микрофонным входом звуковой карты). Чтобы передать всю информацию о синусойде ее надо разделить на конечные фрагменты по времени и по амплитуде. Физически звуковая карта будет просто измерять значение напряжения на своем входе один раз за определенный промежуток времени и переводить полученное значение в цифровое значение отправлять дальше к процессору компьютера. Таким образом, если синусойду представить графически, то видно, что информация с нее снимается и по x и по y

   Чем чаще АЦП будет измерять значения напряжения, тем больше информации мы получим о частотах звука, и чем точнее АЦП будет измерять значения напряжения в каждый отдельно взятый интервал времени, тем больше информации мы получим об амплитуде звука. Обычно, для качественной оцифровки используют частоту 48000 Гц. То есть АЦП измеряет значение синусоидального или любого другово звукового сигнала 48000 раз в сегунду, то есть за 1 секунду АЦП должно получить таблицу тнапряжений из 48000 значений. Для оцифровки звука не важны точные значения напряжения в вольтах, поэтому звуковая карта будет записывать значения напряжения в условные числа. Поскольку компьютер оперирует байтами, то целесообразно использовать для записи значений напряжения 1, 2, 3 или 4 байта. Поскольку 1 байт представлен 8 битами и может передавать 256 числовых значений, то понятно, что этого маловато, для передачи качественной информации об уровнях напряжения на входе АЦП. Обычно используют 2 байта или соответственно 16 бит, с помощью которых мы сможем описать 16384 дискретных значения напряжения на входе АЦП.  Таким образом, за одно измерение напряжения на входе АЦП мы будем иметь 16 битный пакет, характеризующий значение напряжения на входе АЦП в данный момент времени. За секунду наше АЦП соответственно будет выплевывать из себя 48000*16 бит информации, то есть 768 кило бит, то есть на выходе АЦП мы будем иметь 768 кбит/с. Соответственно, кодируя стерео звук, мы будем иметь на выходе 768*2=1536 кбит/с. Что и соответствует скорости чтения и передачи цифрового потока, например, с аудио CD, где записан оцифрованный, но математически не обработанный и не сжатый звук. Таким образом, записав эту информацию допустим в wav файл на винчестер компьютера или CD диск мы будем иметь файл со следующими характеристиками:

Частота оцифровки: 48 кГц

Битрейт: 1536 кбит/с

Каналы: стерео 2.

В любом случае частота оцифровки будет характеризовать ширину спектра частот в передаваемом звуке, а битрейт будет характеризовать общую дискретизацию звука по амплитуде и частоте, то есть, сколько уровней амплитуды в данном звуке и сколькой уровней (градаций) частоты. При использовании, например 1 байта (8 бит) информации, для обозначения громкости звука мы будем иметь возможность работать со звуком имеющим всего 256 градаций громкости, а при использовании 2 байт (16 бит) мы будем иметь уже 16384 градаций громкости, что сможет передавать звук высокого качества. Частота же оцифровки должна быть как минимум в два раза выше предельной частоты используемой в нашей аудиозаписи, то есть если верхняя граница звука у нас 20 кГц, то и частота оцифровки должна быть не менее 40 кГц.

   Итак в нашем примере битрейт равен 1536 кбит/с, на самом деле, поскольку в исходном примере не все исходные числа взяты реально точными, то надо отметить, что реальный битрейт аудио CD диска составляет обычно 1411 кбит/с, что связано с частотой дискретизации не в 48 кГц, как в нашем примере, а 44 кГц на самом деле.

   Далее очень важно понимать, что частота оцифровки использовалась собственно при оцифровке и при дальнейших преобразованиях ее уже не меняют. Далее работают лишь со скоростью не сжатого цифрового потока, в нашем случае в 1536 кбит/с. Собственно 1536 кбит/с та скорость цифровых пакетов, которая нужна, чтобы этот звук нормально воспроизвести на ЦАП (цифро аналоговый преобразователь). Эти пакеты мы можем записать в фай, файл хранить, допустим на винчестере, а можем его передать по Интернету, причем с любой скоростью, поскольку скорость именно 1536 кбит/с важна именно при поступлении на ЦАП, а не при хранении и не при передачи данных, а вот если мы хотим передавать звук в реальном времени, то и скорость передачи нам нужна такая же. Да, файл можно неделю передавать по Интернет и 5 минут его слушать, но если мы его хотим слушать в Интернете в реальном времени, то учитывая небольшую скорость многих Интернет каналов хорошо бы этот поток как то уменьшить. Так появилась идея об mp3 сжатом звуке и бесчисленном множестве других форматов подобных mp3: wma, ogg,… также важно и то, что хранение информации  в этих форматах на носителях (HDD, CD, DVD) также очень выгодно, так как при этом уменьшается размер файла и на одном носителе умещается большее количество файлов. Например, стандартный mp3 файл примерно в 10-20 раз меньше несжатого файла, да и скорость его передачи по каналам связи получается соответственно в 10-20 раз выше. Алгоритм математической обработки сложен и использует для сжатия звука все возможные процедуры. Важно также отметить, что, например, формат wmv, аналогичный mp3 обладает уникальной особенностью, используя математические алгоритмы сжимать звук абсолютно без потери качества, но при небольших коэффициентах сжатия, как правило не более чем в два раза.

   Допустим если компьютерная программа сжатия, заметила, что изменился, допустим динамический диапазон звука и за 1 секунду мы проходи не все возможные уровни громкости, а только громкости, допустим, от 20 до 30 процентов, то программа сжатия может уменьшить в этом участке звуковой записи  количество бит необходимых, для обозначения громкости, о чем поставит специфическую кодовую отметку в файле, которая будет следовать допустим раз в секунду. Далее, проанализировав на этом секундном участке спектр звуковых частот и то, как он изменяется, можно поставить отметку об уменьшении частоты дискретизации, а можно просто, запомнить, что меняется в спектре сигнала, а что не меняется и та информация, допустим, которая не меняется, будет браться из предыдущего секундного отрезка звука просто копируясь оттуда, о чем будет свидетельствовать в файле специфическая командная отметка.

   В результате мы будем иметь специфический сжатый файл, который будет состоять из отрезков прямой информации о звуке и командных меток. Важно понимать, что какое бы сжатие не было, при воспроизведении звука звук все равно разжимается в несжатый стандарт с частотой следования информации, допустим 1536 кбит/с, которая попадает на ЦАП, превращаясь в звук.

   Важно также понимать, что мы можем в некоторых случаях иметь и звук со следующими нестандартными характеристиками:

Частота дискретизации: 44 кГц

Битрейт: 8 кбит/с.

   Это будет очень сильно сжатый звук, но число 8 кбит/с вовсе не означает, что такой звук при разжатии не сможет воспроизводить частоту, допустим в 20 кГц. Сможет. Легко сможет. Просто в таком звуке может содержаться маленькое количество градаций частот и маленькое количество градаций громкости. Допустим, при разжатии такой файл сможет воспроизводить весь спектр частот от 1 Гц до 20 кГц, с с градациями не в 1 Гц, а в допустим 100 Гц. То есть если в этом сжатом файле записана частота звука 1058 Гц, а градации частот звука идут каждые 100 Гц, то при воспроизведении этого файла мы будем слышать частоту не 1058 Гц, а округленную частоту в 1100 Гц.

  При следующих параметрах:

Частота дискретизации: 8  кГц

Битрейт: 192 кбит/с

Мы будем иметь достаточно высококачественный звук, с четкой полосой среза в области 4-8 кГц, то есть спектр воспроизведения такого файла вообще не будет содержать частот выше 8 кГц, что соответствует качественной передачи речи, зато частоты ниже 4 кГц будут передаваться плавным малодискретизированным богатым спектром.

   Вообще понятие битрейт не характеризует степень дискретизации звука конкретно по амплитудам или спектру частот, а характеризует общую информационную насыщенность звука в спектре ограниченной частотой дискретизации. Это также очень важно понимать. То есть, что именно сильнее дискретизируется, частота или амплитуда,  по битрету не понять, это уже особенности типов файлов wma, mp3, ogg и т.д.

   Близок по характеру к mp3 с сильным сжатием формат, например, midi. Его широко используют для воспроизведения полифонических мелодий в сотовых телефонах. Здесь идет чисто командный поток данных. Каждый байт такого файла, представляет собой некую команду, превращающуюся в сложный звук. Фактически это приблизительно то же, что и нажатие клавиш на фортепьяно, когда ограниченное число клавиш передает сложнейшие музыкальные произведения, а нажатие на одну клавишу преобразуется в сложный многогранный звук. В какой-то степени система восстановления голоса, аналогичная смеси midi и mp3 применена в системе GSM. Там также, одной командой может кодироваться сложной спектр частот, эмитирующий колебания голосовых связок, что делает стандарт GSM особенно эффективным лишь для передачи речи.

 

Используются технологии uCoz