Основы цифрового звука

http://www.ethanhein.com/wp/2014/digital-audio-basics/
  • Перевод


Прим. перев.: сегодня мы публикуем перевод статьи из блога Итана Хайна – адъюнкт-профессора по направлению «музыкальные технологии» из Нью-Йоркского Университета. Мы уже публиковали перевод одной из его статей (о визуализации музыки) и решили продолжить эту серию материалом об основах цифрового аудио (эта статья затрагивает базовые моменты превращения аналогового звука в цифровой и будет интересна в первую очередь тем, кто не знаком с этим процессом). Данная тематика обсуждалась и в одном из наших подкастов.

Чтобы понять, как работает цифровой звук, вам нужно знать несколько вещей о физике звука. Анимация изображает, как распространяются звуковые волны от кругового источника звука – представьте, что это поверхность барабана или тарелки (музыкального инструмента).



Как видите, звук – это волна, как рябь на поверхности водоема. Представьте, что ваше ухо находится в середине нижней части этой картинки. Давление воздуха на ваше внутреннее ухо ритмично то увеличивается, то уменьшается. Звук является результатом того, что ваш мозг чувствует, насколько далеко происходит колебание и с какой частотой.

Если вы построите график изменения давления воздуха на ваше ухо с течением времени, то он будет выглядеть примерно так:



Мы увидим еще множество таких волн синусоидальной формы: она очень важна для понимания природы звука. Основная задача аудиозаписи – это перевести такую волновую форму в различные медиаформаты, которые можно сохранять, воспроизводить и управлять ими.

От звука к электричеству


Микрофоны работают точно так же, как и ваши уши, только вместо барабанной перепонки в микрофоне содержится маленькая, тонкая металлическая пластинка, прикрепленная к магниту. С изменением давления воздуха на пластинку, магнит покачивается вперед-назад и вырабатывает электрические колебания. Если вы нарисуете график изменения текущего напряжения, то форма волны будет выглядеть в точности как на графике давления воздуха на перепонку.

Существуют несколько различных технологий создания микрофонов. В некоторых микрофонах для вырабатывания тока вместо магнита используется конденсатор, который колеблется в соответствии с колебаниями воздуха. Такие микрофоны используют «фантомное питание» – вместо того, чтобы вырабатывать небольшой электрический ток, они регулируют тот ток, который уже течет через них. Также есть микрофоны, в которых используется небольшой кусочек пьезоэлектрического материала, который, колеблясь, меняет уровень напряжения.

От тока к «цифре»


Итак, теперь вы получили звук, представленный в виде электрического тока. В прошлом люди сохраняли его множеством способов: в качестве волнистых канавок на виниловых пластинках, фотокинопленках или в виде структурированных магнитных частиц на магнитной ленте. Компьютеры же хранят информацию об уровне тока, регулярно считывая уровень напряжения и сохраняя каждое значение как число. Детали этого процесса довольно сложны, но узнать хоть немного о том, как это работает, может быть полезно.

График, расположенный ниже, изображает кодово-импульсную модуляцию – аналого-цифровое преобразование, используемое в аудиоформатах AIFF и WAV. Красная линия – это оригинальный аналоговый сигнал, который постоянно меняет свою амплитуду и поступает по кабелю от микрофона.



Компьютер считывает уровень напряжения через постоянные временные интервалы, которые изображены на графике как вертикальные линии. Синие точки показывают считанный компьютером уровень напряжения в данный момент. Горизонтальные линии отображают другие возможные значения, которые компьютер может сохранить и считать; из всех этих возможных значений он всегда выбирает наиболее близкое к действительному. Аудиофайлы форматов AIFF и WAV представляют собой длинный (очень длинный) список чисел, которые являются значениями уровня напряжения.

Как вы могли догадаться, чем чаще компьютер считывает показания, и чем точнее оказывается каждое из них, тем качественнее будет звучать цифровая запись. Частота, с которой компьютер считывает показания, называется частотой дискретизации, а точность, с которой он это производит – квантованием. Я раскрою эти понятия в тексте ниже.

Частота дискретизации

Аналого-цифровые преобразователи считывают показания напряжения невероятно быстро. Стандарт CD-качества требует частоту дискретизации 44 100 считываний в секунду, или, говоря техническим языком, 44 100 Герц. Аудио в фильмах или на ТВ имеет частоту дискретизации 48 000 Герц. И это очень быстро! Ведущие записывающие студии иногда используют и намного более высокие частоты. Чем выше частота дискретизации, тем точнее вы можете передать ваш аналоговый сигнал и тем больший диапазон частот можно охватить. CD-стандарт в 44 100 Герц покрывает весь диапазон слышимости человека.

Битовая глубина (квантование)

Чтобы понять идею квантования, вам нужно узнать, как компьютеры хранят числа и другие виды информации в памяти. Память компьютера сделана из миллиардов крошечных электрических переключателей, которые могут находиться только в двух положениях: включено или выключено. Количество информации, которое может быть представлено положением одного такого переключателя называется битом. И что же можно сделать с битом? Ну, вы можете сохранить ответ на вопрос, в форме «да/нет» или же логическое утверждение: «правда/ложь». Или можно хранить два числа, к примеру, ноль и единицу.

Но что, если у вас есть два бита, два электрических переключателя? Получаются четыре возможные комбинации этих двух переключателей: 00, 01, 10, 11, и вы можете использовать эти комбинации, чтобы закодировать четыре числа, к примеру: ноль, один, два и три.

Если у вас три бита, то возможно получить восемь комбинаций: 000, 001, 010, 011, 100, 101, 110 и 111. Теперь можно хранить числа: ноль, один, два, три, четыре, пять, шесть, и семь. Используя четыре бита можно получить до шестнадцати комбинаций, с пятью – тридцать две. Каждый бит вдвое увеличивает количество чисел, которые можно закодировать.

Если ваш аналого-цифровой преобразователь имеет только один бит для представления сигнала, то точно представить сигнал в цифровом виде не получится. То же самое произойдет, если используются два бита выборки. График ниже показывает двухбитное аудио. Цифровая версия звуковой волны получается неточной и будет звучать ужасно, так как используются только четыре допустимых значения напряжения.



Аудио с дискретизацией в три бита звучит немного лучше. Теперь компьютер может выбирать из восьми допустимых значений. Синяя цифровая волна все еще сильно отличается от красного аналогового оригинала, но немного приблизилась к нему:



Первый график в этом разделе показывает четырехбитный звук с шестнадцатью возможными значениями каждого считывания. Этот график выглядит куда лучше. Компьютерные игры 80х годов прошлого века использовали восьмибитный звук – это означает, что в каждый момент считывания можно выбрать одно из 256 значений. Звук все еще кажется слишком фальшивым и «компьютерным», но теперь, хотя бы, можно что-то распознать.

Стандарт CD требует 16 бит для представления аудиозаписей. Это означает, что на каждое считывание приходится 65 536 различных значений. При такой битовой глубине ваше приближенное цифровое значение станет очень похоже на оригинальный аналоговый сигнал и будет довольно хорошо звучать. Еще более высокого качества звучания можно достичь, используя при записи 24-битное аудио, которое позволяет выбирать из 16 777 216 различных значений. С частотой в 44 100 считываний в секунду получится очень гладкая и правильная звуковая волна, которую сложно отличить от оригинальной аналоговой волны даже самым чутким слушателям.

Разумеется, чем больше битовая глубина, тем больше места требуется на диске для хранения всех этих чисел. Качественное 24-битное аудио требует в 256 раз больше места, чем 16-битное аудио. Так что всегда приходится выбирать между качеством и местом на диске. Теперь вы понимаете, почему аудиофайлы такие большие. При прослушивании 16-битного аудио с диска, воспроизводится примерно десять мегабайт информации за минуту, при прослушивании 24 битного – два с половиной гигабайта за минуту.

Как работает звукозаписывающая аппаратура


Самое сложное в звукозаписи – это подобрать правильный уровень сигнала. Если вы установите слишком низкую громкость микрофона, то получите слабовыраженные колебания напряжения. Затем, когда вы будете прослушивать запись, вы будете вынуждены сильно увеличивать громкость, чтобы расслышать её (запись), но вместе с этим увеличится и громкость записанного фонового шума от окружения или оборудования. Получившаяся дорожка будет звучать не лучшим образом. С другой стороны, если вы установите слишком высокую громкость микрофона, то скачки напряжения могут превысить те значения, которые сможет прочитать ваш аналого-цифровой преобразователь. Такое явление называется клиппинг – обрезание сигнала, и звучит оно просто чудовищно.

На графике ниже изображен сигнал, слишком громкий для данного записывающего устройства, а также два различных варианта его искривления.



Аналоговые системы реагируют на перегрузку мягким ограничением уровня (soft clipping). Из-за этого звуковые волны сжимаются и добавляют некоторые гармоники к звуку. На самом деле мягкое ограничение может звучать довольно классно. Гитаристы намеренно перегружают свои усилители, чтобы воссоздать такой вид искажения, который отлично звучит и при воспроизведении с аудиоленты. В свою очередь, цифровые системы при перегрузке резко ограничивают уровень сигнала (hard clipping). Как следует из названия, такое ограничение полностью обрезает пики сигнала. Из-за этого в сигнале появляются ужасно звучащие высокие гармоники, и впоследствии от них невозможно избавиться. Таким образом, урезания цифрового сигнала лучше избегать.

Довольно сложно выставить ручку регулировки усилителя у звукозаписывающего устройства в нужное положение, в котором вы получите хороший сигнал и избежите клиппирования. Картинка ниже изображает индикаторы аудиоинтерфейса, который я использую в момент звукозаписи. Верхний индикатор показывает очень хороший уровень громкости с достаточным запасом мощности. Значение нижнего располагается прямо на границе клиппирования, поэтому, скорее всего, я его немного убавлю.



Где же вы должны производить звукозапись? Это сильно зависит от того, какие помещения есть в вашем распоряжении. Лучшие место – это звукозаписывающие студии, но если у вас нет возможности попасть в одну из таких, есть и другие способы записать хороший звук. В видео ниже подробно рассказывается о звукозаписи в неидеальных условиях.



Форматы файлов


Полученную звукозапись можно сохранить в нескольких форматах. Можно начать с вышеупомянутых форматов AIFF и WAV. Они идентичны друг другу и просто хранят в себе список чисел в различном порядке. Основная проблема AIFF и WAV состоит в том, что они занимают очень много места. Есть несколько способов сжать аудиозаписи, чтобы уменьшить объем занимаемой памяти. Существуют две разновидности сжатия: сжатие без потерь и сжатие с потерями.

Сжатие без потерь

Возможно уменьшить размер файлов на компьютере, не потеряв важной информации. Хорошая аналогия – это условные обозначения стенографиста. Эта система используется репортерами, когда они заменяют различные слова короткими кодами. Условные обозначения занимают меньше места, чем английские слова, и по ним можно дословно воспроизвести все сказанное. Точно так же, как условные обозначения стенографистов являются сжатием без потерь для английского языка, форматы FLAC и Apple Lossless представляют собой способы подобного сжатия для аудио. FLAC и Apple Lossless занимают примерно в два раза меньше места, чем несжатые AIFF и WAV.

Сжатие с потерями

Можно сжать файлы до еще меньших размеров, если вы готовы пожертвовать качеством звука. Сжатие с потерями сродни краткому содержанию книги – вы поймете главную идею, но не воссоздадите целый текст во всех подробностях. MP3 – это наиболее известный аудиоформат сжатия с потерями. MP3-файл звучит не так хорошо, как несжатый оригинал, но может занимать в 10 раз меньше места или даже меньше. Чем больше вы жертвуете качеством, тем сильнее можно сжать файл. Недостатком является то, что когда качество потеряно, восстановить файл уже не получится.

Воспроизведение звука


Точно так же, как аналого-цифровые преобразователи переводят электрические сигналы в числа, цифро-аналоговые преобразователи переводят числа в электрические сигналы. Преобразователь считывает все показания напряжения в аудиофайле и посылает сигналы соответствующей силы по проводу к динамикам. Колебания тока идут по проводам и воздействуют на магнит в динамике, который прикреплен к тонкому бумажному или пластиковому конусу, вибрирующему вместе с ним. Вибрации конуса сотрясают воздух, который воздействует на ваше внутреннее ухо, и вы слышите воспроизведенный звук.

Аудиомания 151,95
Лидер рынка качественных решений для музыки и кино
Поделиться публикацией
Комментарии 17
  • +4
    Как-то я потерялся в месте, где 24-битное аудио требует в 256 раз больше места, чем 16-битное.
    • 0
      Тоже споткнулся на этом месте. Может быть автор или кто-нибудь знающий объяснит?
      • 0
        Автор оригинала дает упрощенный пример для понимания. Подробнее можно тут почитать, например.
        • +5
          Это бред, конечно. В 1,5 раза больше. В 256 раз там больше возможных уровней.
        • 0
          А я не совсем понял про гитаристов и мягкий клиппинг. Сначала подумал про овердрайв — так это довольно сильные искажения с кучей гармоник. Потом решил, что имеется в виду ламповая компрессия — ну так нужно называть вещи своими именами. Да и оной не только гитаристы пользуются.
          Или я дурак совсем не то понял?
          • 0
            Сначала подумал про овердрайв — так это довольно сильные искажения с кучей гармоник

            Гитаристы намеренно перегружают свои усилители, чтобы воссоздать такой вид искажения

            Имитируя перегруз и достигаются эффекты овердрайв, дисторшн и т.д. Видимо «некоторые гармоники» это в сравнении с hard clipping.
          • +5
            Про сжатие с потерями вообще чудовищно. Аналогия похабная. Звучит так, как будто его изобрели, чтобы портить звук. Тогда проще снизить частоту дискретизации или разрядность. Но если мы говорим о сжатии вроде MP3, то его задача как раз уменьшить объем, при этом не ухудшив заметно звук. Для этого используются техники психоакустического сжатия. И в этом самая мякотка, но про нее ни слова. С потерями оно потому, что исходную форму сигнала не восстановить, но звучать должно так же как и раньше. Понятно, что в звуке тоже разница будет, и тем больше, чем ниже битрейт, но в идеале идея именно о сохранении качества.

            Да даже про частоту дискретизации ничего толком не сказано. 44100 Гц хватит всем. А почему? Сложно что ли упомянуть о теореме Котельникова?
            • +2
              44100 по теореме Котельникова действительно может кодировать частоты до 22050, но там есть важный аспект: на высоких частотах начинаются сильные потери из-за смещения фазы сигнала: если первый отсчет в нуле по абсцисс, то например синус 22050Гц вообще не будет записан, т.к. все отсчеты попадут в его нули, или если чуть сместить фазу, то в записи частота будет, но сильно просядет по амплитуде.
              Именно для этого в студиях используются более высокие частоты дискретизации, причем еще и с оверсемплингом в АЦП (когда внутри частота еще выше в несколько раз), и только в последний момент понижают до 44.1к, стараясь сохранить максимум сигнала (в т.ч. смещая фазы, добавляя шум dithering-а и тп)

              Про «однобитовый ацп звучит ужасно» — лучше оговориться про 1 бит@44100, потому как в упомянутой студийной(да и не только студийной) высококачественной аппаратуре как раз таки часто стоят однобитные дельта-сигма АЦП/ЦАП с оверсемплингом и всеми этими плюшками

              Полезно было бы упомянуть про DSD-кодирование, которое используется в Super Audio CD — там как раз 5-мегабитный поток отдельных битиков, которые по сути являются шим-сигналом, можно прямо цифровой сигнал через low-pass фильтр подавать сразу на колонки
              • +1
                Клиппинг бывает не только у АЦП, клипиться может любое звено входного тракта, начиная от самого микрофона, когда хода мембраны не хватает для передачи амплитуды, в некоторых случаях она может даже физически выходить из строя (в качестве эксперимента можно взорвать хлопушку рядом с ленточным микрофоном, но осторожно: желательно быть в беговой обуви, каске и заранее знать куда убегать от владельца испорченной техники), дальше клипинг может быть в предусилителе, пульте и другой технике перед АЦП

                Дальше про динамический диапазон: клипинг может быть и «снизу», только по другим причинам. В любой студии, даже самой тихой — все равно есть какой-то фоновый шум, просто он там достаточно низкий, но он есть. У техники есть фоновый шум, в т.ч. и у самого АЦП, слишком слабый сигнал с ним смешается.

                Веселее после доставки записи пользователю. В типичной городской квартире даже ночью порядка 30 дБ шума все равно есть, днем больше. Динамический диапазон симфонического оркестра — до 80 дБ, при этом чтобы звук был различим, нужно чтобы он был громче фона минимум на 10-15 дБ, в итоге чтобы целиком воспроизвести звучание оркестра — во время тутти придется раскачать колонки до 120дБ, а это уже болевой порог слуха…
                Поэтому диапазон компрессируют: тихие звуки делают громче, громкие тише. Особенно сильно этим страдает поп-музыка — там вообще «зажимают» по самое небалуй, вообще никакой динамики не остается :(
                Но для сжатия это дает вот такой факт: из 16 бит уже не все остаются значимыми, плюс самые тихие звуки заведомо никто не услышит и их можно выкинуть, особенно если речь идет о плеере, который слушают на шумной улице.
                • 0
                  Не пойму как наш мозг может такие две характеристики (длина волны и ее частота) интерпретировать множеством звуков, из которых получается речь (сотни языков, букв, слов и пр… это же какая глубина, есть еще музыка и пр.). Где про это почитать?
                  • 0
                    Меня как человека весьма далёкого от физики тоже давно интересует, как одна колонка (один динамик, один диффузор) может воспроизводить одновременно звук совершенно разных частот? Запись концерта с участием различных музыкальных инструментов, и слышно их все. Одновременно. Как?
                    • 0
                      А вот если бы наши вопросы были на хабре, а не здесь, то нам бы ответили.
                      • +1
                        А в чём проблема воспроизводить колебания по заданной функции x(t) которая является суммой колебаний?
                        (Без учёта того, динамик искажает все частоты, но чисто теоретически в чём проблема воспроизвести сумму двух и более синусоид?)
                        • 0
                          ЕМНИП, это называется «принцип суперпозиции»
                        • 0
                          Откройте любой трек в аудиоредакторе, где можно увидеть, в общем визуальное представление это самой синусоиды (?).
                        • 0
                          Я боюсь длину волны мозг интерпретирует только наглядно, представляя себе колебание в разных средах, а воспринимает частоту.

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое