Чудовий міф про аудіо: чому вам не потрібен 32-бітний ЦАП

Зміст

Ви чуєте це?
Сходи до раю
Правда про 32-бітні та 192 кГц
Згорнути

Як ви, напевно, помітили, в індустрії смартфонів з'явилася нова тенденція - включення аудіо-мікросхем "студійної якості" до сучасних флагманських смартфонів. Хоча 32-розрядний ЦАП (цифровий та аналоговий перетворювач) з підтримкою аудіосигналу 192 кГц, безумовно, добре виглядає на аркуші специфікації, просто збільшувати розмір нашої колекції аудіо просто немає користі.

Я тут, щоб пояснити, чому ця глибина біт та частота дискретизації є лише черговим випадком аудіоіндустрії, яка користується відсутністю споживчих та навіть аудіофільних знань з цього приводу. Надягайте шапки, ми розбираємось у серйозних технічних моментах, щоб пояснити всі додаткові аудіопрограми. І, сподіваюся, я також докажу вам, чому ви повинні ігнорувати більшість маркетингових ажіотажів.

Ви чуєте це?

Перш ніж ми зануримось у цей перший сегмент, пропонуємо деяку необхідну довідкову інформацію про дві основні концепції цифрового звуку, глибину бітів та швидкість вибірки.

Частота вибірки стосується того, як часто ми збираємося фіксувати або відтворювати амплітудну інформацію про сигнал. По суті, ми подрібнюємо форму хвилі на безліч дрібних частин, щоб дізнатися більше про неї в конкретний момент часу. Теорема Найквіста стверджує, що найвища можлива частота, яка може бути захоплена або відтворена, рівно половина частоти вибірки. Це досить просто уявити, оскільки нам потрібні амплітуди для верхньої та нижньої форми хвилі (для чого знадобиться два зразки), щоб точно знати її частоту.

Збільшення швидкості вибірки (вгорі) призводить до отримання додаткових зразків в секунду, тоді як більша глибина біта (знизу) забезпечує більше можливих значень для запису вибірки при.

Що стосується звуку, то нас хвилює лише те, що ми можемо почути, і переважна більшість людей чує хвости трохи раніше 20 кГц. Тепер, коли ми знаємо про теорему Найквіста, ми можемо зрозуміти, чому 44,1 кГц і 48 кГц є загальними частотами вибірки, оскільки вони трохи перевищують двічі максимальну частоту, яку ми можемо почути. Прийняття студійних стандартів якості 96 кГц та 192 кГц не має нічого спільного з захопленням даних високої частоти, що було б безглуздо. Але ми заглибимось у щось більше за хвилину.

Оскільки ми дивимося на амплітуди з часом, то бітова глибина просто посилається на роздільну здатність або кількість точок, доступних для зберігання даних амплітуди. Наприклад, 8-біт пропонує нам 256 різних точок до раунда, 16-бітові результати в 65 534 балів, а 32-бітові дані, що мають значення, дають 4 294 967 294 точок даних. Хоча, очевидно, це значно збільшує розмір будь-яких файлів.

Можливо, буде легко відразу подумати про бітову глибину з точки зору точності амплітуди, але більш важливі поняття тут для розуміння - це шум і спотворення. З дуже низькою роздільною здатністю ми, швидше за все, пропустимо фрагменти інформації нижчої амплітуди або відріжемо вершини форм хвиль, що вводить неточність та спотворення (помилки квантування). Цікаво, що це часто звучить як шум, якщо ви відтворювали файл низької роздільної здатності, оскільки ми ефективно збільшили розмір найменшого можливого сигналу, який можна захопити та відтворити. Це точно так само, як додавання джерела шуму до нашої сигнальної форми. Іншими словами, зниження глибини розряду також знижує рівень шуму. Можливо, це також допоможе подумати про це з точки зору двійкового зразка, де найменш значущий біт представляє підлогу шуму.

Отже, більша глибина розрядів дає нам більший рівень шуму, але існує обмеження на те, наскільки це практично в реальному світі. На жаль, всюди є фоновий шум, і я не маю на увазі, що автобус проходить повз вулицю. Від кабелів до навушників, транзисторів в підсилювачі і навіть вух у вашій голові, максимальне співвідношення сигнал / шум у реальному світі становить приблизно 124 дБ, що відповідає приблизно 21-бітним вартістю даних.Жаргон Бастер:

ЦАП- Цифро-аналоговий перетворювач приймає цифрові аудіодані та перетворює їх у аналоговий сигнал для надсилання у навушники чи динаміки.

Частота вибірки- Вимірюється в Герц (Гц) - це кількість зразків цифрових даних, захоплених кожну секунду.

SNR- Коефіцієнт сигнал-шум - це різниця між бажаним сигналом і фоновим шумом. У цифровій системі це пов'язано безпосередньо з бітовою глибиною.

Для порівняння, 16-бітне захоплення пропонує співвідношення сигнал / шум (різниця між сигналом і фоновим шумом) 96,33 дБ, тоді як 24-бітний пропонує 144,49 дБ, що перевищує межі апаратного захоплення та сприйняття людиною. Тож ваш 32-розрядний ЦАП насправді лише коли-небудь зможе виводити максимум 21-біт корисних даних, а інші біти будуть замасковані шумом ланцюга. Насправді більшість одиниць обладнання за помірними цінами оснащуються SNR від 100 до 110 дБ, оскільки більшість інших елементів схеми подаватимуть власний шум. Зрозуміло, що 32-бітні файли вже здаються зайвими.

Тепер, коли ми зрозуміли основи цифрового аудіо, перейдемо до деяких більш технічних моментів.

Сходи до раю

Більшість питань, пов’язаних із розумінням та неправильним уявленням про аудіо, пов'язані з тим, як освітні ресурси та компанії намагаються пояснити переваги, використовуючи візуальні підказки. Ви, напевно, всі бачили звук, представлений у вигляді сходів сходів для бітових глибин та прямокутних ліній для вибірки. Це, звичайно, не дуже добре, коли ви порівнюєте його з плавно виглядає аналоговою формою хвилі, тому легко вивести тонші, "більш гладкі" сходи, щоб представити більш точну форму вихідної хвилі.

Хоча це може бути просто продати громадськості, ця поширена аналогія точності «сходів» є величезною помилкою і не може оцінити, як цифровий аудіо насправді працює. Ігноруйте це.

Однак це візуальне зображення неправильно відображає, як працює звук. Хоча це може виглядати безладним, математично дані нижче частоти Найквіста, що становить половину частоти вибірки, були зафіксовані ідеально і можуть бути відтворені ідеально. Зобразімо це, навіть на частоті Найкіста, яка часто може бути представлена як квадратна хвиля, а не гладка синусова хвиля, ми маємо точні дані для амплітуди в конкретний момент часу, що є все, що нам потрібно. Ми, люди, часто помилково дивимось на простір між зразками, але цифрова система не працює аналогічно.

Бітова глибина часто пов'язана з точністю, але насправді вона визначає продуктивність шуму в системах. Іншими словами, найменший сигнал, який можна виявити або відтворити.

Що стосується відтворення, то це може стати трохи складнішим, завдяки простому для розуміння поняттю ЦАПів "нульового порядку", який буде просто перемикатися між значеннями за встановленою швидкістю вибірки, створюючи ступінчастий результат. Це насправді не є чітким уявленням про те, як працюють аудіо ЦАПи, але, хоча ми тут, ми можемо використовувати цей приклад, щоб довести, що вас не варто турбувати про ці сходи.

Важливим фактом, який слід зазначити, є те, що всі форми хвиль можуть бути виражені у вигляді суми декількох синусоїд, основної частоти та додаткових компонентів при гармонійних кратних. Трикутна хвиля (або східчастий крок) складається з непарних гармонік при зменшенні амплітуд. Отже, якщо у нас є багато дуже маленьких кроків, що відбуваються з нашою швидкістю вибірки, ми можемо сказати, що додається якийсь додатковий вміст гармонік, але він відбувається з подвійною нашою звуковою (нюкістською) частотою і, ймовірно, декількома гармоніками поза цим, тому ми виграли я не зможу їх почути в будь-якому випадку. Крім того, це було б досить просто відфільтрувати, використовуючи кілька компонентів.

Якщо виокремити зразки ЦАП, ми можемо легко побачити, що бажаний сигнал ідеально представлений разом із додатковою формою хвилі зі швидкістю вибірки ЦАП.

Якщо це правда, ми повинні мати можливість спостерігати за цим швидким експериментом. Візьмемо вихід прямо з базового ЦАП нульового порядку, а також подаємо сигнал через дуже простий 2^другий замовити фільтр низьких частот, встановлений на половині нашої вибіркової швидкості Я фактично використовував тут лише 6-бітний сигнал, просто так, щоб ми могли реально бачити вихід на осцилограмі. 16-бітний або 24-бітний аудіофайл матиме набагато менше шуму в сигналі до і після фільтрації.

Досить грубий приклад, але це свідчить про те, що аудіодані чудово відтворені в цій безладному схожій сходовій клітці.

І як би за допомогою магії, сходи майже повністю зникли, а вихід "згладжений", лише використовуючи фільтр низьких частот, який не перешкоджає нашому виходу синусоїди. Насправді все, що ми зробили, - це відфільтровані частини сигналу, які ви б інакше не почули. Це насправді не поганий результат для додаткових чотирьох компонентів, які в основному є безкоштовними (два конденсатори та два резистори коштують менше 5 пенсів), але насправді є більш складні методи, які ми можемо використовувати, щоб ще більше зменшити цей шум. Що ще краще, вони включені як стандарт у більшості ЦАПів гарної якості.

Якщо мати справу з більш реалістичним прикладом, будь-який ЦАП для використання зі звуком також матиме фільтр інтерполяції, також відомий як підбір вибір. Інтерполяція - це просто спосіб розрахунку проміжних точок між двома зразками, тому ваш ЦАП фактично робить багато цього «згладжування» самостійно, і набагато більше, ніж подвоєння чи вчетверо збільшити швидкість вибірки. А ще краще, він не займає додаткового простору файлів.

Інтерполяційні фільтри, які зазвичай зустрічаються в будь-якому ЦАПі, варто його солі, є набагато кращим рішенням, ніж перенесення файлів із більшою швидкістю вибірки.

Методи для цього можуть бути досить складними, але по суті ваш ЦАП змінює вихідне значення набагато частіше, ніж могла б запропонувати вибіркова частота вашого аудіофайлу. Це виштовхує нечутні гармоніки східчастого кроку далеко за межами частоти дискретизації, що дозволяє використовувати повільніші, легше досяжні фільтри, що мають менше пульсацій, тому зберігаючи біти, які ми насправді хочемо почути.

Якщо вам цікаво, чому ми хочемо видалити цей вміст, який ми не можемо почути, простою причиною є те, що відтворення цих додаткових даних далі по ланцюгу сигналів, скажімо в підсилювачі, витратить енергію. Крім того, залежно від інших компонентів в системі, цей більш високочастотний "ультразвуковий" вміст може насправді призвести до збільшення кількості спотворень інтермодуляції в компонентах з обмеженою пропускною здатністю. Отже, ваш 192 кГц файл, ймовірно, завдав би більше шкоди, ніж користі, якби насправді якийсь ультразвуковий вміст містився в цих файлах.

Якщо потрібні ще якісь докази, я також покажу вихід з високоякісного ЦАП за допомогою Circus Logic CS4272 (на фото вгорі). CS4272 має інтерполяційну секцію і крутий вбудований вихідний фільтр. Все, що ми робимо для цього тесту, - це використання мікроконтролера для подачі в ЦАП двох 16-бітних зразків високої та низької частоти на 48 кГц, що дає нам максимально можливу форму вихідної хвилі на 24 кГц. Не використовуються інші компоненти фільтрування, цей вихід надходить безпосередньо з ЦАП.

24 кГц вихідний сигнал (вгорі) від цього компонента DAC класу студії, звичайно, не схожий на прямокутну форму хвилі, пов'язану зі звичайним маркетинговим матеріалом. Швидкість вибірки (Fs) відображається внизу осцилографа.

Зверніть увагу, як вихідна синусоїда (вгорі) рівно половина швидкості тактової частоти (знизу). Немає помітних сходів сходів, і ця дуже високочастотна форма хвилі виглядає майже як ідеальна синусоїда, а не блокатна квадратна хвиля, яку міг би запропонувати маркетинговий матеріал або навіть випадковий погляд на вихідні дані. Це показує, що навіть маючи лише два зразки, теорія Найкіста прекрасно працює на практиці, і ми можемо відтворити чисту синусову хвилю, відсутню будь-якого додаткового вмісту гармоній, без величезної глибини біт або швидкості вибірки.

Правда про 32-бітні та 192 кГц

Як і в більшості речей, за всім жаргоном та 32-бітовим звуком 192 кГц прихована правда - це те, що має практичне використання, тільки не в долоні. Ці цифрові атрибути дійсно корисні, коли ви знаходитесь в студійному середовищі, отже, претензії на передачу "звуку студійної якості на мобільний", але ці правила просто не застосовуються, коли ви хочете покласти готовий трек у кишеню.

По-перше, почнемо зі ставки вибірки. Однією з переваг аудіо високої роздільної здатності є збереження ультразвукових даних, які ви не чуєте, але впливає на музику. Сміття, більшість інструментів випадають задовго до обмеження частоти нашого слуху, мікрофон, який використовується для зйомки місця, не більше 20 кГц, а навушники, якими ви користуєтеся, точно також не поширяться. Навіть якби вони могли, ваші вуха просто не можуть цього розпізнати.

Типова чутливість слуху людини досягає 3 кГц і швидко починає скачуватися після 16 кГц.

Однак вибірка 192 кГц є досить корисною для зменшення шуму (це ключове слово ще раз) під час вибірки даних, дозволяє спростити побудову основних вхідних фільтрів, а також важлива для високошвидкісного цифрового ефекту. Перезбудження над звуковим спектром дозволяє нам середньо оцінити сигнал для виштовхування шумової підлоги. Ви побачите, що в наші дні більшість хороших АЦП (аналогових цифровим перетворювачам) мають вбудовану 64-бітну надмірну вибірку або більше.

Кожному АЦП також потрібно прибрати частоти, що перевищують його ліміт Найквіста, інакше у вас виявиться жахливе звучання, оскільки більш високі частоти «згортаються» в чутний спектр. Маючи більший розрив між нашою кутовою частотою фільтра 20 кГц та максимальною швидкістю вибірки, більш пристосований до реальних фільтрів, які просто не можуть бути настільки крутими та стабільними, як вимагають теоретичні фільтри. Це так само і в кінці ЦАПу, але, як ми обговорювали, інтермодуляція може дуже ефективно підштовхувати цей шум до більш високих частот для полегшення фільтрації.

Чим крутіший фільтр, тим більше пульсацій в смузі пропускання. Збільшення частоти вибірки дозволяє використовувати «повільніші» фільтри, що допомагає зберегти рівну частотну характеристику в звуковій смузі пропускання.

У цифровій області аналогічні правила діють для фільтрів, які часто використовуються в студійному змішуванні. Більш високі показники вибірки дозволяють отримати більш круті, швидкісні фільтри, для необхідного функціонування яких потрібні додаткові дані. Нічого цього не потрібно, якщо мова йде про відтворення та DAC, оскільки нам цікаво лише те, що ви насправді можете почути.

Перейшовши на 32-розрядний, кожен, хто коли-небудь намагався кодувати будь-яку віддалено складну математику, зрозуміє важливість глибини бітів як з цілими, так і з плаваючою точкою. Як ми вже обговорювали, чим більше бітів, тим менше шуму, і це стає важливішим, коли ми починаємо ділити або віднімати сигнали в цифровій області через помилки округлення та уникати помилок відсікання під час множення чи додавання.

Додаткова бітова глибина важлива для збереження цілісності сигналу під час виконання математичних операцій, таких як всередині студійного аудіо програмного забезпечення. Але ми можемо викинути ці додаткові дані, коли закінчиться майстерність.

Ось приклад: скажімо, ми беремо 4-бітний зразок, а наш поточний зразок 13, що становить 1101 у двійковому. Тепер спробуйте розділити це на чотири, і нам залишиться 0011, або просто 3. Ми втратили зайві 0,25, і це буде помилкою, якщо ми спробували зробити додаткову математику або повернути сигнал назад у аналогову форму хвилі.

Ці помилки округлення проявляються як дуже мала кількість спотворень або шуму, які можуть накопичуватися протягом великої кількості математичних функцій. Однак, якщо ми розширили цей 4-розрядний зразок з додатковими бітами інформації для використання у вигляді фракції або десяткової крапки, то ми можемо продовжувати ділити, додавати і множитися набагато довше завдяки додатковим точкам даних. Тож у реальному світі вибірка в 16 або 24 бітах, а потім перетворення цих даних у 32-бітний формат для обробки знову допомагає заощадити на шумі та спотворенні. Як ми вже говорили, 32-біт - це надзвичайно багато точок точності.

Тепер, що не менш важливо визнати, це те, що нам не потрібен цей додатковий простір, коли ми повертаємося в аналоговий домен. Як ми вже обговорювали, приблизно 20 біт даних (-120 дБ шуму) абсолютний максимум, який можливо виявити, тому ми можемо перетворити назад на більш розумний розмір файлу, не впливаючи на якість звуку, незважаючи на те, що "аудіофіли" є ймовірно, нарікаючи на ці втрачені дані.

Однак ми неминуче вводимо деякі помилки округлення при переміщенні на меншу глибину біту, тому завжди буде невелика кількість зайвих спотворень, оскільки ці помилки не завжди трапляються випадковим чином. Хоча це не проблема з 24-бітовим звуком, оскільки він вже виходить за межі аналогового рівня шуму, техніка під назвою "дихання" акуратно вирішує цю проблему для 16-бітних файлів.

Приклад порівняння спотворень, введених усіченням і осипанням.

Це робиться шляхом рандомізації найменш значущого біта аудіо вибірки, усунення помилок спотворень, але введення дуже тихого випадкового фонового шуму, що поширюється на частотах. Хоча введення шуму може сприймати інтуїтивно зрозумілий, це насправді зменшує кількість звукових спотворень через випадковість. Крім того, використовуючи спеціальні шумоподібні схеми затухання, які зловживають частотною характеристикою людського вуха, 16-бітовий керований звук насправді може зберігати сприйнятий рівень шуму дуже близький до 120 дБ, прямо в межах нашого сприйняття.

32-бітні дані та частота дискретизації 192 кГц мають помітні переваги в студії, але ті самі правила не застосовуються для відтворення.

Простіше кажучи, нехай студії забивають свої жорсткі диски цим вмістом з високою роздільною здатністю, нам просто не потрібні всі ці зайві дані, коли мова йде про високу якість відтворення.

Згорнути

Якщо ви все ще зі мною, не сприймайте цю статтю як повне відмову від зусиль щодо вдосконалення аудіо-компонентів смартфона. Хоча кількість реклами може бути марною, якісніші компоненти та краща конструкція схем все ще є чудовим розвитком на мобільному ринку, нам просто потрібно переконатися, що виробники зосереджують свою увагу на правильних речах. Наприклад, 32-розрядний ЦАП у LG V10 звучить приголомшливо, але вам не потрібно займатись величезними розмірами аудіофайлів, щоб ним скористатися.

Можливість керувати навушниками з низьким опором, зберігати підлогу з низьким рівнем шуму від ЦАПу до гнізда і пропонувати мінімальні спотворення - це набагато важливіші характеристики звуку смартфона, ніж теоретично підтримувана бітова глибина або швидкість вибірки, і, сподіваємось, ми зможемо зануритися в ці пункти більш детально в майбутньому.

Зміст

Ви чуєте це?

Сходи до раю

Правда про 32-бітні та 192 кГц

Згорнути

Створіть свою першу основну гру для Android всього за 7 хвилин (за допомогою Unity)

Чи можете ви дивитись Amazon Prime Video на Chromecast?

Google, за оцінками, отримає 2,8 мільярда доларів від обладнання

Як зробити основну гру для Android в Unreal Engine за 7 хвилин

Як зробити Google домашньою сторінкою в Chrome (Android та ПК)