Hi-res audio: новый формат и новое качество музыки

Начало цифровой эры

Хотя в наше время цифровое аудио является стандартом музыки…

Это не всегда было так.

Изначально музыка существовала только в виде звуковых волн.

Затем с развитием технологий открывались способы её конвертации в другие форматы, такие как

  • нотная запись
  • электрические сигналы в кабелях
  • радиоволны в атмосфере
  • нанесение на виниловой пластинке

Но в последнее время, в компьютерную эпоху, цифровое аудио стало основным форматом звукозаписи, позволив с лёгкостью копировать и передавать песни.

Устройство, благодаря которому это стало возможным, называется… цифровой конвертер.

Далее — о том, как он работает…

Устройства синхронизации

Hi-res audio: новый формат и новое качество музыки

Когда 2 или более устройств обмениваются цифровыми данными в реальном времени…

Их внутренние часы должны быть синхронизированы, чтобы сэмплы оставались выровненными…

И не появлялись раздражающие щелчки и хлопки.

Для их синхронизации одно устройство служит “главным”, а остальные — “ведомыми”.

В простых домашних студиях главными обычно являются часы аудиоинтерфейса.

В профессиональных студиях, которым необходимы идеальная цифровая конвертация и сложный путь прохождения сигнала

Вместо этого используется специальное отдельное устройство, известное как цифровое устройство синхронизации (также известное как word clock). По словам многих пользователей, при использовании таких устройств звук улучшается гораздо сильнее, чем можно было бы подумать.

Далее…

Сжатие Mp3/AAC

В современном мире сжатые аудиофайлы — это норма цифрового аудио.

Из-за ограниченной вместимости айподов, смартфонов и онлайн-хранилищ все файлы должны весить как можно меньше.

Используя метод “сжатия данных без потерь”, mp3, AAC и другие подобные форматы сжимают аудиофайлы вплоть до 1/10 от их изначального размера.

Процесс сжатия использует принцип человеческого слуха, известный как “слуховая маскировка”…

Благодаря которому можно удалять большую часть музыкальной информации, оставляя при этом приемлемое для большинства слушателей качество звука.

Опытные звукоинженеры разницу, может, и услышат, но простой обыватель — нет.

Точное значение того, как много информации удалится, зависит от битрейта файла.

Чем выше битрейт, тем меньше информации удаляется и больше деталей остаётся.

Например, в mp3

  • 320 кбит/с — максимально возможный битрейт
  • 128 кбит/с — рекомендуемый минимальный битрейт
  • 256 кбит/с — золотая середина, которую предпочитает большинство

Чтобы найти идеальный формат и битрейт для ВАШЕЙ музыки, всегда смотрите советы конечного сервиса (Айтюнс, Ютьюб, СаундКлауд и т. д.)

Разрядность

Чтобы понимать битовую глубину (разрядность), сперва обсудим биты.

Сокращение от binary digit (двоичная единица), бит — отдельная составляющая бинарного кода, либо 1, либо .

Чем больше используется битов, тем больше возможных комбинаций. Например…

Как видно на таблице внизу, из 4 бит можно составить 16 комбинаций.

Hi-res audio: новый формат и новое качество музыки

Когда они используются для кодирования информации, каждому числу присваивается значение.

С увеличением числа битов, число возможных значений растёт экспоненциально.

  • 4 бит = 16 возможных значений
  • 8 бит = 256 возможных значений
  • 16 бит = 16536 возможных значений
  • 24 бит = 16777215 возможных значений

В цифровом аудио каждое значение присваивается амплитудам звуковой волны.

Чем больше разрядность, тем выше разница между тихим и громким звуком… и больше динамический диапазон записи.

Общее правило: с каждым “битом” динамический диапазон увеличивается на 6 дБ.

Например

  • 4 бит = 24 дБ
  • 8 бит = 48 дБ
  • 16 бит = 96 дБ
  • 24 бит = 144 дБ

В целом это значит, что… большая разрядность приводит к меньшему количеству шумов

Потому что при добавлении запаса мощности, полезный сигнал может быть записан более отчётливо относительно шумов.

Hi-res audio: новый формат и новое качество музыки

Далее…

Разрядность звука

Hi-res audio: новый формат и новое качество музыки

Если горизонтальное дробление волны дает нам представление о частоте дискретизации, то вертикальная дискретизация – это разрядность, отвечающая за достоверную передачу динамических элементов записи. Чем большее количество «ступенек» может зафиксировать преобразователь, тем выше разрядность записанного звукового файла.

Например, волна за отрезок времени может совершить движение одной ступенькой от 0 до 16, а может четырьмя — по 4 единицы за шаг. Более точным представлением будет 16 шагов по единице. Количество ступенек, на которые волна дробится по вертикали, — это и есть разрядность.

Чем выше разрядность конвертора, тем достовернее он передаст сигналы разного уровня громкости. Если мы движемся большими шагами, каждый из которых равен 16 единицам (низкая разрядность), то при громкости входящей волны на уровне 4 график ее будет округлять до нуля. А если каждая ступенька разрядности равна 4 единицам (средняя разрядность), значение 4 будет зафиксировано на своем уровне, а значения 3 и 5 округлятся до 4. При единичном шаге все эти значения будут находиться на своих ступеньках — 3, 4, 5 (высокая разрядность).

Таким образом, более высокая разрядность АЦП дает возможность детальнее интерпретировать различные значения громкости звука и максимально приблизиться к форме реальной волны.

Разбиение волны на «ступеньки» по вертикали и горизонтали называется квантованием. Иногда частоту дискретизации называют частотой квантования, а разрядность динамическим квантованием, то есть разделением по уровням громкости (динамика).

Естественно, пример с 16 единицами — условность. Конверторы работают на гораздо более высоких значениях. Например, при разрядности 16 бит система может передать 65536 уровней громкости (2 в степени 16). А при 24 битах — 16777216 уровней (2 в степени 24).

Казалось бы, зачем столько? Неужели наше ухо способно различить хотя бы десять тысяч уровней громкости? Напрямую — не может. Скажем, два сигнала с «соседними» значениями даже при разрядности 16 бит мы различить не в состоянии. Но работа в студии ведется с разнообразными звуками, и некоторые из них имеют значительные перепады по громкости (к примеру, реверберация). Многие процессы требуют тонкой работы с громкостями (например, едва заметное воздействие эквалайзером на спектр). Для корректной работы нужна система с хорошей разрешающей способностью и по горизонтали, и по вертикали.

Но есть и обратная сторона медали. Высокие значения дискретизации и разрядности делают файлы более объемными, и для их обработки системе требуется больше ресурсов. Здесь самое время вспомнить про различия между ресурсонезависимыми и нативными системами. Чем выше квантование, тем сильнее загружается компьютер. Этот фактор более критичен для нативной системы, обремененной обслуживанием операционки и фоновых процессов.

Всегда нужно искать баланс между значениями дискретизации и разрядности и реальными возможностями системы. Не заставляйте ее работать на пределе, оставляйте резерв мощности.

Мы приближаемся к очень важной и мало кому понятной теме, связанной с музыкальным производством. Речь о так называемых шумах квантования

В ближайшее время этому явлению будет посвящен отдельный материал. Понимание природы шумов квантования дает возможность музыканту и звукорежиссеру разобраться в некоторых непростых вопросах, связанных с записью музыки в цифровой среде. Поскольку ввиду дороговизны и сложности в обслуживании аналогового оборудования подавляющее большинство музыкантов работает прежде всего именно в цифровых системах записи, эта тема так или иначе затрагивает всех.

Следите за обновлениями блога, подписывайтесь на новые статьи, чтобы совершенно бесплатно получать их на электронную почту. Также хочу напомнить, что очень много познавательной практической и теоретической информации содержится в моей книге «Академия Мюзикмейкера», которую без посредников можно приобрести на сайте MusicMaker.Pro.

Алексей ДаниловИллюстрации: А. РублевскийПри перепечатывании ссылка на источник обязательна

Интересное:

  • Что Вы узнаете из этого блога?Привет всем!

    Меня зовут Алексей Данилов.

    Некоторые из Вас знают меня …

  • АранжировкаДа… Есть такая тема, о которой можно говорить много и долго, и в конце разг…
  • Аналог VS ЦифраКаждый музыкант сам выбирает, в какой среде ему работать – цифровой или ана…
  • Осцилляторы DCO
    В последние несколько лет ажиотаж вокруг аналоговых синтезаторов значител…

Бизнес и финансы

БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумагиУправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги — контрольЦенные бумаги — оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудитМеталлургияНефтьСельское хозяйствоЭнергетикаАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством

Полный цикл преобразования звука: от оцифровки до воспроизведения у потребителя

Hi-res audio: новый формат и новое качество музыки
Полный цикл преобразования звука: от оцифровки до воспроизведения

Помехоустойчивое и канальное кодирование

Помехоустойчивое кодирование позволяет при воспроизведении сигнала выявить и устранить (или снизить частоту их появления) ошибки чтения с носителя. Для этого при записи к сигналу, полученному на выходе АЦП, добавляется искусственная избыточность (контрольный бит), которая впоследствии помогает восстановить поврежденный отсчет. В устройствах записи звука обычно используется комбинация из двух или трех помехоустойчивых кодов. Для лучшей защиты от пакетных ошибок также применяется перемежение.
Канальное кодирование служит для согласования цифровых сигналов с параметрами канала передачи (записи/воспроизведения). К полезному сигналу добавляются вспомогательные данные, которые облегчают последующее декодирование. Это могут быть сигналы временного кода, служебные сигналы, сигналы синхронизации.
В устройствах воспроизведения цифровых сигналов канальный декодер выделяет из общего потока данных тактовые сигналы и преобразует поступивший канальный сигнал в цифровой поток данных. После коррекции ошибок сигнал поступает в ЦАП.

Принцип действия ЦАП

Цифровой сигнал, полученный с декодера, преобразовывается в аналоговый. Это преобразование происходит следующим образом:

  1. Декодер ЦАП преобразует последовательность чисел в дискретный квантованный сигнал
  2. Путём сглаживания во временной области из дискретных отсчетов вырабатывается непрерывный во времени сигнал
  3. Окончательное восстановление сигнала производится путём подавления побочных спектров в аналоговом фильтре нижних частот

Параметры, влияющие на качество звука при его прохождении по полному циклу

Основными параметрами, влияющими на качество звука при этом являются:

  • Разрядность АЦП и ЦАП.
  • Частота дискретизации АЦП и ЦАП.
  • Джиттер АЦП и ЦАП
  • Передискретизация

Также немаловажными остаются параметры аналогового тракта цифровых устройств кодирования и декодирования:

  • Отношение сигнал/шум
  • Коэффициент нелинейных искажений
  • Интермодуляционные искажения
  • Неравномерность амплитудно-частотной характеристики
  • Взаимопроникновение каналов
  • Динамический диапазон

Ошибка квантования

Звучит невероятно, что в 24-битовых записях почти 17 миллионов значений, правда?

Но всё же это намного меньше бесконечного числа возможных значений, существующего в аналоговом сигнале.

Практически в каждом сэмпле действительное значение расположено где-то между двумя возможными значениями. Конвертер просто округляет (квантует) их до ближайшего значения.

В итоге получается искажение, известное как ошибка квантования, которое происходит на двух этапах процесса записи:

  1. в начале, во время аналого-цифрового преобразования
  2. в конце, во время мастеринга

Во время мастеринга частота дискретизации и разрядность конечного трека зачастую снижаются при преобразовании в конечный цифровой формат (CD, mp3 и т. д.).

Когда это происходит, некоторая информация удаляется и заново квантуется, что ещё больше искажает звук.

Для решения этой проблемы придумано следующее…

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организацииМуниципалитетыРайоныОбразованияПрограммыОтчетыпо упоминаниямДокументная базаЦенные бумагиПоложенияФинансовые документыПостановленияРубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датамРегламентыТерминыНаучная терминологияФинансоваяЭкономическаяВремяДаты2015 год2016 годДокументы в финансовой сферев инвестиционной

Цифровые конвертеры

В студиях звукозаписи цифровые конвертеры существуют в 2 вариантах:

  • как отдельное устройство в топовых студиях или…
  • как часть аудиоинтерфейса в домашних студиях.

Чтобы сделать из звука бинарный код, они снимают десятки тысяч снимков (сэмплов) в секунду для построения примерной картинки аналоговой волны.

Эта картинка не совсем точная, поскольку в моменты между сэмплами конвертер должен догадаться, что происходит.

Hi-res audio: новый формат и новое качество музыки

Как видно на графике выше:

  • красная линия показывает аналоговый сигнал, а…
  • чёрная линия показывает конверсию…

Результаты неидеальны, но достаточны для создания звука отличного качества.

А насколько отличного зависит в основном от…

Дизеринг

При конвертации 24-битного файла в 16-битный используется дизеринг, чтобы скрыть большую часть получающихся искажений…

За счёт добавления “псевдослучайного шума” в аудиосигнал.

Поскольку этот концепт тяжело визуализировать, говоря о звуке, его обычно объясняют с помощью изображений.

Вот как это работает

Когда цветное фото конвертируют в чёрно-белое, математически высчитывается, какой цветной пиксель должен стать чёрным, а какой — белым…

Также, как высчитывается квантование сэмплов цифрового аудио.

Как видите на иллюстрации ниже, картинка “до” выглядит отстойно, не так ли?

Hi-res audio: новый формат и новое качество музыки

Но благодаря дизерингу

  • небольшое количество белых пикселей случайно вносятся в чёрные зоны
  • небольшое количество чёрных пикселей случайно вносятся в белые зоны

И благодаря добавлению этого “псевдослучайного шума” в изображение, картинка “после” выглядит гораздо лучше. Концепт аудиодизеринга сходен с этим.

Далее…

Формат CD и родственные ему форматы Flac – динамический диапазон

Рассмотрим для начала любимый формат CD и родственные ему форматы Flac. Динамический диапазон рассчитывается очень просто — он равен 6дБ на 1 бит информации, при импульсно кодовой модуляции использующейся в этих форматах. Для компакт диска динамический диапазон таким образом равен 16бит х 6дБ = 96дБ. Соответственно величина ошибки квантования равна величине младшего разряда и для 16бит динамического диапазона цифровой (теоретический) шум квантования составит -96дБ. Мы разобрали квантование по амплитуде и это еще не все характеристики цифрового аудио.

С нижними частотами все в порядке. Проблемы возникают при оцифровке высоких частот. Дело в том что период максимальной (по теореме Котельникова-Шеннона или известная как «частота Найквиста») частоты 22050Гц, будет записан всего двумя цифрами. Это и есть частота дискретизации которая равна для компакт диска 44100Гц. Если сравнить количество информации доступное для записи максимальной частоты 22050Гц и минимальной для CD частоты в 20Гц, на ум приходит очень важный и простой вывод — различные частоты записываются с разным качеством.

Чтобы посчитать величину шума дискретизации подойдет формула от оценки шума квантования. Предварительно нужно знать величину периода (целое число) искомой частоты и расчитать требуемое количество бит кодирующих фазу частоты. Ниже представлена таблица где приведены частоты с уменьшением на октаву, плюс самая низкая частота (кодируемая, как мы помним с избытком качества), далее следует величина периода, минимальная 2р, здесь и далее указывается число единиц информации кодирующих один период частоты и разрядность в битах необходимая для кодирования одного периода при этой частоте дискретизации (ограничением для количества бит на фазу является как раз частота дискретизации). В конце приводится то что нам нужно — величина (теоретическая) фазового шума (ошибка дискретизации) для определенной частоты:

CD 44100 Hz 16bit

  • 22050 Hz 2p(1b) -6дБ
  • 11025 Hz 4p(2b) -12дБ
  • 5512 Hz 8p(3b) -18дБ
  • 2756 Hz 16p(4b) -24дБ
  • 20 Hz 2205p(11b) -66дБ

Итак, значения шума дискретизации прямо сказать обескураживающие =). Недаром эти характеристики производители аппаратуры не указывают вообще.

Структура цифрового звукового тракта

При проигрывании музыки происходит примерно следующее: плеер при помощи кодека, выполненного в виде устройства или программы, распаковывает файл в заданном формате (FLAC, MP3 и другие) или считывает данные с CD, DVD-Audio или SACD-диска, получая стандартный поток данных PCM. Затем этот поток передается через USB, LAN, S/PDIF, PCI и так далее в I2S-конвертер. В свою очередь, конвертер преобразует полученные данные в так называемые кадры интерфейса передачи данных I2S (не путать с I2С!).

Hi-res audio: новый формат и новое качество музыки 

I2S

I2S — это последовательная шина передачи цифрового аудиопотока. Сейчас I2S — стандарт для подключения источника сигнала (компьютер, проигрыватель) к цифроаналоговому преобразователю. Именно через нее подключается напрямую или опосредованно подавляющее большинство ЦАП. Существуют и другие стандарты передачи цифрового аудиопотока, но они используются гораздо реже.

Hi-res audio: новый формат и новое качество музыкиВыход (вход) I2S на печатных платах

Шина I2S может состоять из трех, четырех и даже пяти контактов:

  • continuous serial clock (SCK) — тактовый сигнал битовой синхронизации (может называться BCK или BCLK);
  • word select (WS) — тактовый сигнал кадровой синхронизации (может называться LRCK или FSYNC);
  • serial data (SD) — сигнал передаваемых данных (может называться DATA, SDOUT или SDATA). Как правило, данные передаются от передатчика к приемнику, но бывают устройства, которые могут выступать и приемником, и передатчиком одновременно. В таком случае может присутствовать еще один контакт;
  • serial data in (SDIN) — по этому контакту данные движутся в направлении приема, а не передачи.

SD или SDOUT служит для подключения цифроаналогового преобразователя, а SDIN используется для подключения аналого-цифрового преобразователя к шине I2S.

В большинстве случаев присутствует еще один контакт, Master Clock (MCLK или MCK), он используется для синхронизации приемника и передатчика от одного генератора тактовых импульсов, чтобы снизить коэффициент ошибок передачи данных. Для внешней синхронизации MCLK служат два генератора тактовых импульсов: с частотой 22 579 кГц и 24 576 кГц. Первый, 22 579 кГц, — для частот, кратных 44,1 кГц (88,2, 176,4, 352,8 кГц), а второй, 24 576 кГц, — для частот, кратных 48 кГц (96, 192, 384 кГц). Также могут встречаться генераторы на 45 158,4 кГц и 49 152 кГц — наверняка ты уже заметил, как в мире цифрового звука всё любят умножать на два.

Hi-res audio: новый формат и новое качество музыкиFrame, или кадр I2S

В I2S обязательно используются три контакта: SCK, WS, SD — остальные контакты опциональны.

По каналу SCK передаются синхроимпульсы, под которые синхронизированы кадры.

По каналу WS передается длина «слова», при этом используются и логические состояния. Если на контакте WS логическая единица, значит, передаются данные правого канала, если ноль — данные левого канала.

По SD передаются биты данных — значения амплитуды звукового сигнала при квантовании, те самые 16, 24 или 32 бита. Никаких контрольных сумм и служебных каналов на шине I2S не предусмотрено. Если данные при передаче потеряются, возможности восстановить их не существует.

На дорогих ЦАП часто бывают внешние разъемы для подключения к I2S. Использование таких разъемов и кабелей может плохо отразиться на звуке, вплоть до появления «артефактов» и заиканий, все будет зависеть от качества и длины провода. Все же I2S это внутрисхемный разъем, и длина проводников от передатчика до приемника должна стремиться к нулю.

Рассмотрим, как передается поток данных PCM по шине I2S. Например, при передаче PCM 44,1 кГц с разрядностью 16 бит длина слова на канале SD будет соответствовать этим шестнадцати битам, а длина кадра будет 32 бита (правый канал + левый). Но чаще всего передающие устройства используют длину слова 24 бита.

Hi-res audio: новый формат и новое качество музыки

При воспроизведении PCM 44,1 × 16 старшие биты либо попросту игнорируются, так как заполнены нулями, либо, в случае со старыми мультибитными ЦАП, они могут перейти на следующий кадр. Длина «слова» (WS) может также зависеть от плеера, через который воспроизводится музыка, а также от драйвера устройства воспроизведения.

Альтернативой PCM и I2S может быть запись звукового сигнала в DSD. Этот формат развивался параллельно с PCM, хотя и тут теорема Котельникова оказала некоторое влияние. Для улучшения качества звучания по сравнению с CDDA упор был сделан не на повышение разрядности квантования, как в формате DVD Audio, а на увеличение частоты дискретизации.

Время задержки

ОДИН БОЛЬШОЙ НЕДОСТАТОК современных цифровых студий — это задержка по времени, накапливающаяся в потоке сигналов, особенно в ЦЗРС.

Учитывая все происходящие вычисления, для того, чтобы аудиосигнал вышел из системы, требуется от нескольких миллисекунд до нескольких ДЕСЯТКОВ миллисекунд.

  • Задержка в 0-11 миллисекунд настолько короткая, что обычный человек её и не заметит.
  • При задержке в 11-22 миллисекунд вы слышите раздражающий слэпбек, короткую задержку, к которой надо какое-то время привыкать.
  • При задержке более 22 миллисекунд становится почти невозможно играть или петь вместе с треком.

В обычной цифровой цепочке сигналов существуют 4 стадии, влияющие на итоговое время задержки

  1. аналого-цифровое преобразование
  2. буферизация ЦЗРС
  3. задержка плагина
  4. цифро-аналоговое преобразование

Аналого-цифровое и цифро-аналоговое преобразование — 2 самых маленьких негативных эффекта, добавляющих максимум 5 миллисекунд к задержке.

Однако…

Буфер ЦЗРС и некоторые плагины (включая “смотрящие вперёд” компрессоры и виртуальные инструменты) могут добавить 20, 30, 40 миллисекунд и даже больше.

Чтобы сохранить минимальный уровень задержки

  1. Отключите все ненужные плагины при записи.
  2. Установите настройки буфера ЦЗРС так, чтобы найти наименьшее время, которое потянет ваш компьютер без лагов.

Вы обратите внимание, что время буферизации измеряется в сэмплах, а НЕ в миллисекундах. Чтобы их сконвертировать:. Поделите число сэмплов на частоту дискретизации (в кГц), чтобы определить время задержки в миллисекундах.

Поделите число сэмплов на частоту дискретизации (в кГц), чтобы определить время задержки в миллисекундах.

Например: 1024 сэмпла ÷ 44.1 кГц = 23 мс

Если вам влом заниматься математикой, просто запомните значения для 44.1 кГц:

  • 256 сэмплов = 6 мс
  • 512 сэмплов = 12 мс
  • 1024 сэмпла = 24 мс

В БОЛЬШИНСТВЕ случаев эти шаги должны свести задержки к приемлемому уровню…

Но иногда, если ваше оборудование слишком старое или дешёвое, могут и не привести.

В таком случае…

Крайняя мера

Во многих бюджетных интерфейсах есть крутилка “mix” или “blend”, позволяющая соединять музыку с сессии с “живым сигналом”.

Разделяя сигнал с микрофона/гитары и посылая половину на компьютер, а половину — напрямую в наушники, можно избежать задержек, полностью обходя цепочку сигналов.

Недостаток этой техники… вы слышите живой сигнал абсолютно сухим, без эффектов.

Но есть надежда, что по мере роста производительности компьютеров это перестанет быть проблемой в ближайшем будущем.

Далее…