Как сделать качество трека отличное

Обновлено: 08.07.2024

Пару лет назад мы написали статью о том, как определить истинный битрейт любого аудиофайла, а также почему конвертация YouTube в MP3 со скоростью 320 кбит / с — пустая трата времени. Наша цель состояла в том, чтобы помочь пользователям определить истинное качество звука музыкальных файлов, за которые они заплатили и загрузили, чтобы избежать музыкальных сервисов, которые утверждают, что предлагают высококачественный звук без потерь, но, к примеру, подают MP3, преобразованные в FLAC.

Многие пользователи также спрашивали, как они могут определить истинное качество звука потоковой музыки, а не локальных файлов. Это большой вопрос, так как в последние годы появилось много потоковых сервисов HiFi, утверждающих, что они предлагают своим пользователям высококачественные музыкальные потоки без потерь.

Вы можете подумать, что сможете просто записать потоковое аудио, сохранить его локально в виде файла .WAV и запустить его через анализатор спектра, такой как Spek. Это не может быть сделано. Невозможно захватить бит идеальный звук из потокового источника с помощью обычной звуковой карты материнской платы.

Поэтому нам нужно использовать почти идеальный точный анализатор спектра для потоковой передачи звука и понять, как его читать в режиме реального времени.

MusicScope — это анализатор звука в реальном времени и измерительный инструмент, который может обеспечить очень точную обратную связь при потоковой передаче звука. К сожалению, разработчики прекратили продавать лицензии на программное обеспечение, но пробная версия позволяет тестировать до 30 секунд звука.

Для целей данного руководства мы приведем примеры использования программного обеспечения с локальными файлами в разных форматах. Однако вся предоставленная информация может в равной степени применяться к потоковому аудио, например, от Spotify, Deezer и т. Д.

Определение частоты и диапазона громкости LRA

Наблюдая за графиками в MusicScope, мы видим, что динамический диапазон очень высок, как и следовало ожидать от оркестровой записи.

MusicScope также может дать нам LRA (диапазон громкости), который измеряет контраст между самыми мягкими и самыми громкими частотами. Для этого конкретного трека, мы видим, что разница между самыми тихими и самыми громкими пассажами составляет около 23 децибел.

С точки зрения микродинамики, этот конкретный трек имеет очень большой динамический диапазон, который мы ожидаем от высококачественной оркестровой записи, но также происходит несколько интересных вещей.

MusicScope может сказать нам, выиграет ли трек от более высокого разрешения. Так что этот трек, в частности, записывается с 16-битной глубиной с частотой дискретизации 44 кГц. Но мы можем сказать, что у трека есть большой запас. От 0 до 6 децибел ниже полной шкалы нет данных в линейном частотном спектре.

Таким образом, эффективный битрейт этой дорожки составляет всего около 14–15 бит, что означает, что они могли применить сжатие динамического диапазона во время основной записи, или микрофоны, используемые во время записи, не улавливали всю информацию.

Поэтому, даже если бы существовала версия этого файла с тактовой частотой 96 кГц, это не принесло бы пользы, поскольку наиболее вероятно, что микрофоны, использованные во время записи, не улавливали все данные. Это связано с тем, что большинство микрофонов спроектированы для отображения на частотах человеческого слуха, поэтому, честно говоря, 96-кГц / 24-битная запись этой дорожки не принесет заметной разницы.

Как узнать, может ли песня иметь лучшую аудио версию

Этот трек имеет LRA около 12,9, что довольно много для трека EDM. Здесь интересно то, что вы можете видеть, что это 24-битное отслеживание, которое использует почти все 24 бита динамического диапазона. Самая тихая музыка в этой записи примерно на 100 дБ ниже самого громкого шума.

Так что, глядя на спектрограмму, вы можете сказать, что этот трек обрезан на частоте 22 кГц, это действительно жесткое срезание, а высокочастотные пики на частотах около 22 кГц всего на 60 децибел ниже полной шкалы.

Это означает, что если бы у нас была версия этого трека 96 кГц, вероятно, было бы много информации выше 22 кГц, которая не попала бы в эту версию трека.

Проще говоря, ваш опыт прослушивания мог бы выиграть от версии этого трека с более высоким разрешением. Этот трек достигает пределов своего формата (частота дискретизации 44 кГц). Как только вы поймете процесс мышления, вы по-настоящему начнете понимать, обслуживаете ли вы наилучшую версию трека в потоковом сервисе hi-fi.

Как сказать плохое качество записи звука

Посмотрев на график радара, мы увидим, что дорожка непрерывно достигает максимальной длительности песни, поэтому она непрерывно ограничивается в натуральную величину. Так что, если вы играете этот трек на оборудовании среднего уровня, он, вероятно, сильно искажает.

Также этот трек имеет LRA около 2,3, что означает, что динамический диапазон составляет 2,3 децибела по всему треку, что выглядит довольно безумно.

Плохое качество или преднамеренное производство?

Итак, подведем итог. Мы можем использовать MusicScope для определения всевозможной информации о музыкальной дорожке, но мы также должны учитывать, что было задумано исполнителем, и было ли некачественное мастеринг на самом деле формой искусства или чем-то в этом роде.

Создание видеороликов, трансляция подкастов и стримов — все это становится популярнее с каждым годом. Растущая конкуренция выдвигает больше требований к качеству контента, особенно к технической части — мало кто будет терпеть хрипящий звук и едва различимую речь, которую заглушает фоновая музыка. В этой статье рассматриваются базовые методы обработки голоса, которые помогут сделать его сопоставимым по качеству с речью профессионального диктора или радиоведущего.

Общие советы

Идеально, если речь записана в акустически обработанной комнате. Если таковой нет, можно обойтись акустическим экраном для микрофона. Расстояние до микрофона индивидуально и зависит от громкости голоса, экспрессии и динамики. Главное, чтобы не было перегрузов или откровенно тихого сигнала. Оптимальное значение — от -18 до -12 дБ.

На микрофоне обязательно должна быть либо ветрозащита, либо поп-фильтр. Взрывные согласные сложно поддаются компьютерной обработке, так что лучше приобрести недорогой аксессуар, который избавит от большинства проблем с ними.

Набор неплохих бесплатных плагинов от DAW Reaper можно скачать с официального сайта — там есть все необходимое. Для тех, кто всерьез увлечется звукорежиссурой, можно посоветовать более продвинутые пакеты плагинов от Waves, Fabfilter, Softube — их существует множество на любой вкус.

Обработку стоит выполнять на студийных мониторах или в наушниках студийного уровня. Без качественного контроля будет сложно разобрать, что вообще происходит с аудиосигналом.

Обрабатываем звук для оффлайн-видео

Итак, голос записан, и теперь нужно его обработать.

Следующий шаг — шумоподавление. Нужно найти участок записи без какого-либо сигнала, чтобы на нем присутствовал только шум цепи звукозаписи. Если уровень шума ниже 50 дБ (как на скриншоте выше) — можно смело махнуть на него рукой и не делать ничего, такой шум никто не услышит. Если шум явно заметен, можно использовать специальные плагины (например, reafir от Reaper или denoiser в Cubase) для его удаления, либо подрезать эквалайзером пару самых шумных частот — точно так же, как будут удалятся резонансы в следующем пункте.

Фильтрация и удаление резонансов. Бывает, что низкий мужской голос начинает неприятно бубнить в районе 100–200 Гц, либо высокий женский тембр в сочетании с не самым лучшим микрофоном неприятно режет по ушам. Так и проявляются резонансы. Избавиться от них просто: нужно поставить в цепь обработки эквалайзер и узкой полосой с большим усилением (10–30 дБ) “пройтись” по всему частотному спектру, вычисляя самые неприятные места с режущим ухо свистом, звоном или гудением. Их необходимо ослабить узкой полосой на 3–5 дБ. Главное здесь не перестараться — удаления всего двух-трех основных резонансов обычно хватает для дикторского голоса.

Поиск и подрезание резонанса

Помимо этого, можно вовсе удалить целые куски спектра, в которых нет никакого полезного сигнала. Это делается с помощью low-pass и hi-pass фильтров, которые обрезают высокие и низкие частоты соответственно.

Чаще всего проблемы встречаются в следующих областях:

● Ниже 75–100 Гц — здесь находится, в основном, низкочастотный бубнящий шум. Можно смело применить hi-pass фильтр и обрезать все до этих значений.

● 100–150 Гц — тут нередко находятся гудящие частоты, особенно это касается мужского вокала, записанного в небольшой комнате. Можно подрезать их узкой полосой.

● Выше 16 кГц — в человеческой речи редко присутствует что-то полезное выше этой частоты, так что можно смело применять low-pass фильтр.

Так выглядит эквалайзер после вырезания резонансов и ненужных частот

Добавление недостающих частот. Теперь, когда остался только полезный сигнал, нужно сделать его четче и ярче. В качестве отправной точки будут полезны следующие данные:

● 180–240 Гц — прибавление 3–5 дБ широкой полосой в этой области сделает мужскую речь более полной и читаемой. Для женской речи это будет 200–300 Гц.

● 1.5–2 — 5 кГц — это самый важный диапазон для голоса, так называемая область разборчивости. Человеческий слух наиболее чувствителен именно к этим частотам, стоит прибавить их широкой полосой на 3–8 дБ.

● 9–11 кГц — эти частоты отвечают за яркость голоса. Их очень часто не хватает в речи, записанной даже на студийный микрофон, особенно в заглушенной комнате, которая с аппетитом пожирает верха вокала. Нередко приходится значительно прибавлять этот диапазон — на 6–12 дБ, чтобы придать речи ясности. Но нужно следить за шипящими согласными.

При эквализации низких частот лучше использовать узкие полосы, а при высоких — широкие, это сделает работу эквалайзера менее заметной.

Компрессия. Компрессором убирается разница между громкими и тихими участками записи. В итоге голос будет звучать равномерно, от хлопков и кашля слушатель не будет вздрагивать, а при шепоте ему не придется прибавлять громкость. Понять работу компрессора поможет аналогия с громкой музыкой в комнате, которая не нравится соседу за стенкой. Параметр threshold будет тем критическим уровнем громкости музыки, при превышении которого сосед начинает тарабанить по батарее монтировкой; attack — как быстро он бежит к батарее при превышении этого уровня; ratio — насколько нужно убавить громкость, чтобы успокоить соседа; а release — как долго сосед перестает возмущаться после убавления громкости. Сосед-компрессор заставляет несчастного меломана держать уровень громкости музыки в определенных пределах. Начать настройку можно со следующих значений:

● Ratio: 4:1 (таким образом, если сигнал превышает порог на 4 дБ, то он скомпрессируется до 1 дБ выше порога)

● Attack: как правило, для голоса хорошо работает быстрая атака в районе 5–10 мс, она позволяет компрессору срабатывать мгновенно. Если при этом компрессия начинает съедать согласные — атаку нужно увеличить.

● Release: если в компрессоре есть функция авторелиз, можно ей и воспользоваться. Если нет — начать стоит с 40–50 мс.

● Output или make-up: если в компрессоре есть функция автомейкапа, можно применить ее. В противном случае компенсацию громкости можно выполнить вручную на слух — главное, чтобы итоговый сигнал не попадал в красную зону.

● Threshold: здесь нужно смотреть по уровню громкости исходного трека. Начать можно с -8 дБ.

Лимитеринг. Это операция позволяет ограничить максимальный уровень громкости. Сигнал на мастер-шине не должен зашкаливать, и лимитер выступает в роли очень жесткого компрессора, который не позволяет сигналу выбраться за пределы установленного значения. Как правило, среднее арифметическое уровня сигнала (RMS) должно быть около -16 дБ. При рендере на мастер-шине нужно выставить уровень -0.5 дБ, потому что финальная конвертация аудио может сделать звук громче и добавить искажений. При отсутствии лимитера его роль может сыграть компрессор: достаточно выставить ratio на максимум, threshold на -0.5 дБ, и атаку на минимум.

Лимитер и компрессор в роли лимитера

Если фоновая музыка в видео заглушает речь, нужно выставить RMS музыки и RMS голоса одинаковыми, после чего убавить музыку на 5–10 дБ. Если в некоторых местах слова все еще неразборчивы, можно применить к музыкальной подложке эквализацию. Достаточно посмотреть на эквалайзер для речи и сделать все наоборот в эквалайзере для музыки: например, если в речи 5 кГц приподнято широкой полосой, то в музыке эти же 5 кГц нужно убавить.

Обрабатываем звук в онлайне

У стримов и подкастов есть своя специфика при обработке голоса — здесь важно, чтобы плагины не были ресурсоемкими и не сильно грузили компьютер. Поэтому стоит использовать минимально необходимый набор эффектов.

Чаще всего для стримов используется программа OBS Studio. В ней можно загружать точно те же VST-плагины для обработки звука, что и в DAW. Если используется не OBS Studio, то для обработки голоса можно воспользоваться отдельной программой для потоковой обработки звука VSTHost, она работает с любыми приложениями для стримов.

Так выглядит плагин ReaFIR в OBS Studio

Для обработки голоса потребуется необходимый минимум:

1. Шумоподавление. В отличие от оффлайн-видео, звук к которым нередко записывается отдельно на качественный микрофон, в стримах часто используется не самое лучшее оборудование. Недорогой микрофон вкупе со встроенной звуковой картой и включенной функцией Microphone Boost в настройках звука Windows будут сильно шуметь. Для того, чтобы избавиться от этого шума, можно использовать встроенный в OBS фильтр Noise Suppression. У него всего одна настройка — уровень шумоподавления, начать стоит со значения около -20 дБ.

2. Гейт. Если в звуке для оффлайн-видео можно вручную вырезать все крики детей за окном и рев соседского перфоратора за стеной, то с онлайном такой фокус не провернуть. Понадобится гейт.

● Release можно сделать длинным, около 200 мс, поскольку работа гейта будет слишком слышна при быстром релизе. Правильно настроенный гейт почти незаметен для слушателя и удаляет лишь шумы и призвуки в паузах между фразами.

● Уровень гейта нужно сделать чуть выше, чем фоновый шум, не стоит выставлять уровень рядом с уровнем голоса.

● Простой способ настройки гейта для речи — нужно сложить губы трубочкой и шумно выдохнуть воздух в сторону от микрофона, запомнить на индикаторе значение уровня этого шума и выставить его на гейте.

4. Компрессор. Для стримов он имеет даже большее значение, чем для оффлайн-видео — в онлайне ни один диктор не сможет уследить за динамикой своего голоса на протяжении нескольких часов. Следует быть готовым к тому, что речь будет то едва слышной, то слишком громкой. Поэтому нужно использовать более жесткие настройки компрессора, чем для оффлайн-видео. Начать можно с ratio 10:1, атаки 5 мс и релиза в 30 мс или автоматически.

При подобных настройках нет необходимости в лимитере — компрессор будет выполнять его роль. Но если динамика речи очень большая и не позволяет настроить гейт (то слова начинают обрезаться, то шум просачивается в эфир), тогда можно использовать два компрессора: первый, с более мягкими настройками (ratio 3:1) поставить перед гейтом, второй, в качестве лимитера — в конце цепи (ratio выкрутить на максимум, threshold — так, чтобы компрессор срабатывал только при очень громких фразах).

Дайте послушать результаты!

Разобраться в обработке звука по тексту бывает непросто, но результат того стоит. Смотрите сами. Точнее, слушайте.

Качественный звук в современных видео и стримах значит ничуть не меньше, чем видео в высоком разрешении. А порой и больше — ведь многие ставят ролики на фон, смотря их вполглаза и воспринимая происходящее в основном на слух.

При этом стоит учесть, что данное руководство дает лишь базовые настройки в качестве точки отсчета. Конечный результат должен подбираться аудиально, ведь главный инструмент в работе звукорежиссера — это его собственные уши.

Удаление сверхнизких частот и смещения по постоянному току

Мы не слышим звуки ниже 20 Гц, но их наличие в миксе уменьшает доступную динамическую высоту (headroom). Удалив всё, что ниже 20 Гц, Вы легко сможете увеличить общий уровень на 1 – 2 dB (иногда и больше). Не забывайте, что борьбу со сверхнизкими частотами желательно начинать ещё на этапе сборки микса. Найдя индивидуальные проблемные треки, Вы избавитесь от необходимости обрабатывать микс целиком.

Другой преступник – смещение по постоянному току (DC offset). Оно также уменьшает динамическую высоту, поскольку нулевые точки звуковой волны смещаются в ту или иную сторону. В большинстве аудиоредакторов имеется функция "Remove DC offset", которая возвращает эти нулевые точки на их законное положение 0V. Это позволяет получить больший уровень сигнала при том же количестве высоты.

Поскольку наш слух менее восприимчив к басовым частотам, часто возникает желание усилить их. Особенно это характерно для людей, не имеющих большого опыта в сведении. А ведь уменьшение баса может дать больше пространства для других частот.
Чтобы компенсировать такое уменьшение и дать иллюзию большого количества баса, можно применять следующие методы:
Использовать многополосный компрессор только лишь для обработки басовой области. Бас будет казаться громким, но займёт меньше пространства.

Использовать плагин Waves MaxxBass или процессор Aphex Big Bottom. MaxxBass изолирует оригинальный бас и генерирует на его основе гармоники. С точки зрения психоакустики, слыша высшие гармоники, наш мозг сам достраивает фундаментальные басовые частоты. Big Bottom применяет несколько другую, но не менее эффективную психоакустическую обработку, позволяющую подчеркнуть бас.

Поиск и понижение пиков

Другая проблема – это противоборство пикового и среднего уровней. Чтобы понять различие, рассмотрите удар барабана. В начале имеется огромный взрыв энергии (пик), который сопровождается быстрым спадом амплитуды. Чтобы избежать перегрузок, Вам потребуется настроить довольно низкий уровень записи. В результате получается относительно низкая средняя энергия.
С другой стороны, у продолжительного органного аккорда имеется высокая средняя энергия. Предположим, что Вы используете HDD-рекордер и воспроизводите с него сразу несколько треков. Конечно, индикаторы на стереовыходе будут прыгать, но Вы сможете заметить, что в некоторых местах они подпрыгивают намного выше, чем в остальных секциях песни. У этого может быть много причин. Например, играет несколько инструментов с громким пиком в одно и то же время. Или Вы используете на синтезаторе резонансный фильтр, и попадается нота с частотой, близкой или равной его резонансной частоте. Так вот, если Вы будете подстраиваться под эти пики, то это будет уменьшать средний уровень песни.
При мастеринге Вы сможете компенсировать это снижение среднего уровня, используя компрессию или ограничение (лимитирование). Эта обработка прижимает пики и поднимает более тихие элементы. Однако, если Вы займётесь этим в процессе сведения, то получите более естественное звучание, поскольку не надо будет использовать такую усиленную динамическую обработку во время мастеринга.
Самый лёгкий способ сделать это – включить песню и наблюдать за индикаторами мастер-шины, пока не обнаружится место, где индикаторы покажут самый большой всплеск уровня. Зациклите участок вокруг этого пика и по очереди заглушайте индивидуальные треки, пока не найдётся тот, который приносит больше всего энергии. Предположим, в какой-то секции максимальный уровень достигает 0dB. Заглушаете один трек – пик показывает -1. Заглушаете второй – пик показывает -2. Заглушаете третий – пик падает до -7. Всё, виновник найден!

Слух имеет наибольшую чувствительность в диапазоне 3 – 4 кГц, поэтому используйте эквалайзер, чтобы немного повысить эти частоты (особенно в тихих партиях). В результате, музыка будет казаться громче и получит больше презенса. Но будьте очень осторожны, поскольку чрезмерное усиление этого диапазона может привести к раздражающей резкости. В некоторых случаях, даже одного децибела повышения бывает много.

Если Вам хочется ещё сильнее разогреть своё микс, привлеките такие процессоры, как максимизатор громкости или высококачественный многополосный компрессор. Однако, если Вы последовали вышеописанным советам, то Вам потребуется менее агрессивная динамическая обработка. Если Вы раньше использовали, например, 4 – 6dB максимизации, то теперь сможете получить аналогичные результаты с одним или двумя децибелами. Вы сможете плющить только самые высокие пики, а всё остальное оставить практически неповреждённым.

Сделать мастеринг трека, микса, песни, аудио без посещения студии быстро и качественно.

Чтобы процесс мастеринга прошел наиболее эффективно нужно, чтобы вы правильно подготовили свои миксы (треки, проекты и т.д.) – как именно рассказываю:

Уберите отсечку! – сейчас немного теории, которую можете не читать, а читать сразу конкретные действия. [stextbox ]Итак, Отсечка — это форма искажения формы волны, которая возникает, когда сигнал (или усилитель) перегружен и пытается превысить предел. Когда это происходит, сигнал обрывается, вызывая неприятный звук. В цифровом аудио ограничение составляет 0 дБ при работе с 16-битными или 24-битными файлами. 32-битные файлы с плавающей запятой не имеют этой проблемы, поскольку предельная точка не определена и может превышать 0 дБ. Ниже вы можете увидеть пояснительное изображение:[/stextbox]

Конкретные действия: отсечка возникает, когда в мастер треке много поднимают основной фейдер, чтобы слышать микширование громче. Микшируйте свою песню с нормальными уровнями в 0, хотя лучше всего оставить интервал от -3 дБ до -6 дБ.

Уберите Master Bus — короче, вы не должны иметь никаких плагинов с эффектами в мастер-шине (мастер треке), если только это не крайне необходимо для звука, которого вы хотите добиться. Никаких лимиттеров, компрессоров и т.д. в треке, который передаёте на МАСТЕРИНГ в сервис – там все сделают сами как надо! Проверьте главную шину, даже если вы не помните, добавляете ли вы какой-либо эффект или нет.

В ПРИНЦИПЕ все, что выше сказано применимо в подготовке трека к мастерингу своими силами или на студии.

Читайте также: