Как сделать звук чище

Добавил пользователь Валентин П.
Обновлено: 20.09.2024

Вопрос от пользователя

Доброго времени Александр.

Помогите пожалуйста! На моем ноутбуке не так давно началась какая-то "катавасия" — нормальный привычный звук стал полным дном (грешу на обновление Windows 10, но 100% уверенности в этом нет). Переустанавливать систему очень и очень не хотелось бы, куча программ нужных.

Громкость теперь низкая (но это пол беды), добавилось какое-то эхо — звук идет как будто из трубы или тронного зала. Иногда бывает легкое потрескивание.

Сначала подумал, что дело в наушниках, но их смена не помогла. Куда еще можно посмотреть?

Если звук "портится" после обновления/переустановки ОС — то в подавляющем большинстве случаев проблема возникла из-за драйвера на аудио-карту (реже из-за "некорректных" настроек системы).

Как бы там ни было, ниже приведу несколько наиболее типовых проблем, с которыми чаще всего приходится сталкиваться. Разумеется, "пробежаться" по ним лучше в том порядке, в каком привожу их я. 😉

👉 Важно!

1) Если проблема со звуком возникала сразу после обновления ОС — попробуйте ее "откатить" на ту дату, когда всё работало ( прим. : возможно, что Windows создала точку восстановления).

2) Если у вас вообще нет звука в наушниках — то сначала ознакомьтесь с этой инструкцией

ускорение ПК

Что может повлиять на качество звука: диагностика

Причина 1

Первый совет банален : внимательно осмотрите проблемные наушники (колонки*), которые вы подключаете к компьютеру (телефону). В целях диагностики желательно подключить их к другому (нормально-работающему) устройству и проверить, всё ли с ними в порядке!

Кстати, если говорим о наушниках — то у них "больные" места (перегибы) возле штекера и динамиков (см. фото ниже 👇). В этих местах медные жилки внутри провода часто "ломаются" и звук либо пропадает, либо ухудшается.

Фото наушников и штекера (возле штекера провод поврежден)

Фото наушников и штекера (возле штекера провод поврежден)

👉 В помощь!

Как починить наушник(и), если один из них не работает / то есть звук, то пропадает (в домашних условиях)

Причина 2

Второй момент (о котором просто не могу не сказать при "плохом" звуке) — это качество самих аудио-файлов, которые вы прослушиваете. В ряде случаев из-за низкого битрейта (скорости потока 👇) — хорошего звучания добиться в принципе нельзя! Т.е. проблемы со "звуком" как таковой нет — есть проблема с качеством того, что вы воспроизводите!

Совет : проверьте работу своих наушников и устройств при воспроизведении медиа-файлов из разных источников — Spotify, YouTube и т.д.

Кстати, чтобы узнать битрейт текущего аудио- или видео-файла — нажмите по нему правой кнопкой мыши и откройте его свойства . Во вкладке подробно можно узнать частоту, каналы, скорость потока и пр. параметры.

Свойства аудио- видео-файла

Свойства аудио- видео-файла

Обратите внимание , что при работе с аудио- видео-файлами в различных редакторах (Movavi, например) есть возможность самостоятельно выбирать формат и качество (от этого зависит размер файла).

Если плохое звучание наблюдается только у собственных аудио-/видео-записей — обязательно проверьте настройки той программы, при помощи которой ведётся запись и редактировка файла.

Movavi видеоредактор — выбор качества звука

Movavi видеоредактор — выбор качества звука

Причина 3 (⚡)

Как уже говорил выше, наиболее часто после обновления (переустановки) Windows, проблема со звуком возникает из-за драйвера:

  • либо сбиваются настройки в его панели управления;
  • либо Windows ставит самостоятельно "не родной" аудио-драйвер (который и работает "из рук вон плохо").

👉 Поэтому, первый совет здесь — откройте панель управления аудио-драйвером (чаще всего это какой-нибудь "Realtek HD". ). Обычно, значок на его панель управления можно найти в трее (👇), либо в меню ПУСК, либо настройках ОС.

Значок звука от аудио-драйвера

Значок звука от аудио-драйвера

Если "искомого" значка нет и вы не можете открыть настройки аудио-карты — вероятно, вам на нее необходимо обновить драйвер (загрузив его в с офиц. сайта). Ссылка на статью ниже в помощь!

👉 В помощь!

Нет значка от панели управления звуком! Как войти в панель управления Realtek, а то никак не могу настроить звук.

Обратите внимание на скриншот ниже — в панели управления звуком есть возможность установки эффекта звучания. Разумеется, среди эффектов есть разные стили:

  • канализационная труба;
  • ванная комната;
  • большая аудитория и т.д.

Попробуйте "поиграться" с ними + задействуйте различные фильтры.

Звуковой эффект — настройка аудио-драйвера

Звуковой эффект — настройка аудио-драйвера

Диспетчер звука Realtek HD

Диспетчер звука Realtek HD // Еще один пример

👉 Кстати, также хочу порекомендовать один момент тем, у кого диспетчер Realtek — во вкладке "Микрофон" включите подавление шума и эхо. Это помогает сделать звук чуточку лучше (полезно, если фонит микрофон).

Диспетчер Realtek — подавлять эхо

Диспетчер Realtek — подавлять эхо

Причина 4

Что касается эффектов и эквалайзеров (о которых чуть выше уже затрагивали тему) — то здесь также нельзя не упомянуть настройки проигрывателя (ведь в них тоже это задается!). Например, в Winamp есть множество пресетов , и некоторые из них звучат далеко не идеально.

Посыл здесь простой : попробуйте другой проигрыватель + измените настройки по умолчанию (возможно, что, слегка подстроив фильтры — звук станет намного лучше и чище!).

Эквалайзер в Winamp

Эквалайзер в Winamp

Причина 5 (⚡)

В этом пункте я порекомендую проверить ряд параметров звука в Windows (в некоторых случаях из-за некорректных настроек реестра — звук идет существенно хуже, чем мог бы быть! Встречался уже с этим на нескольких ноутбуках!).

И так, сначала нажмите сочетание Win+R, и используйте команду mmsys.cpl в окне "Выполнить" .

Далее откройте свойства наушников (громкоговорителя 👇) и проверьте вкладки: "Дополнительно"; "Пространственный звук"; "Уровни"; "Улучшения" и пр. Попробуйте отрегулировать громкость и вкл. фильтры (какие именно будут у вас — зависит от ПО и "железа").

Устройство воспроизведения по умолчанию

Устройство воспроизведения по умолчанию

Пространственный звук

Теперь, что касается электропитания и реестра.

В некоторых моделях ноутбуков (я пока встречал у HP, Dell, Lenovo) может быть "беда" с совместимостью драйверов с ОС Windows 10 (это связано с электропитанием). Из-за чего при воспроизведении любого аудио- и видео-файла (в т.ч. и онлайн) — слышны "потрескивания", звук отстает, и пр.

Настройки электропитания (реестр)

Настройки электропитания (реестр) // пример, где будем "копаться"

Причина 6

Есть небольшая вероятность, что проблемы со звуком могут быть связаны с неисправностью аудио-карты (например, она могла "пострадать" из-за скачка в электросети, аварийного откл. электричества, во время молнии и т.д.).

Вообще, наиболее быстрый способ перепроверить это (а возможно и вовсе решить проблему) — попробовать подключить к ноутбуку (ПК) внешнюю аудио-карту . Благо, что многие из них сейчас размером не больше флешки! 👇 И скажу вам, что даже такая "небольшая штука" способна обеспечить звук не хуже многих встроенных звуковых карт.

Приобрести подобные аудио-карты (как у меня на фото ниже 👇) 👉 можно в обычных комп. магазинах (в т.ч. и под заказ). Цена вопроса: ∼150-1000 руб.

Аудио-карта

PS

Если все вышеприведенное не дало результатов — рекомендую также ознакомиться с одной моей давней заметкой о "шумах" (ссылка ниже). Это, конечно, не относится напрямую к текущей проблеме, но всё же. ряд моментов и там и здесь пересекается, и возможно те рекомендации будут полезны!

👉 В помощь!

Шипение, шум, треск и другой посторонний звук в колонках и наушниках - как найти и устранить причину?

Здесь важно соблюсти баланс: сделать акустическую обработку пространства, не убив при этом его естественное звучание.

Здесь важно соблюсти баланс: сделать акустическую обработку пространства, не убив при этом его естественное звучание. Заметьте, речь идет не о звукоизоляции, а именно об акустической обработке, цель которой — решение проблемы с рассеиванием звуковых колебаний. Отражаясь от стен, волны сталкиваются друг с другом, что приводит к искажению звука. Идеальное место — комната с асимметричными стенами, которые не параллельны друг другу. Установите на стены звукопоглощающие панели на уровне головы за спиной и по бокам. Обычно они изготовлены из поролона, который хорошо впитывает звуковые колебания и предотвращает резонанс. Если вы используете качественный микрофон с кардиоидной диаграммой направленности, то располагать изоляционные материалы за ним не имеет смысла — он воспринимает только сигнал, поступающий спереди. В углах, где скапливаются низкие частоты, стоит разместить специальные басовые ловушки.

Зашторьте окна плотными гардинами, завесьте дверные проемы толстой тканью с перехлестом, расстелите на полу поглощающий колебания мягкий ковер с ворсом — сделайте так, чтобы на всех путях распространения звук встречал препятствия. Даже не перестраивая спальню или гостиную в студию звукозаписи, оглядитесь в пространстве, прислушайтесь к нему. За спиной стоит шкаф с одеждой? Откройте его, вещи тоже помешают колебаниям отражаться. Убедитесь, что все те фоновые шумы, которые незаметны в повседневной жизни, не проявят себя во всей красе в аудиокниге.



Не стоит параллельно с процессом записи запускать стиральную, посудомоечную машины, включать фен и все остальные устройства, издающие шум. Чувствительные микрофоны легко захватят не только голос, но и все посторонние звуки: гудение системного блока или поставленный на беззвучный режим телефон, который лежит неподалеку. Снизить уровень помех, которые вызваны электромагнитным полем, помогут экранированные кабели. Во избежание низкочастотного гула, электрически связанные друг с другом устройства, например компьютер и активную акустическую систему, следует подключать к одному сетевому фильтру.

Мотивируйте себя тем, что организовав рабочее место однажды, вы сэкономите свое драгоценное время в будущем.

К оборудованию тоже следует отнестись предельно внимательно. Микрофон должен быть оснащен поп-фильтром. Этот аксессуар не только защитит мембрану от попадания пыли и слюны, что продлит службу самого микрофона, но приглушит взрывные согласные и дыхание. Антивибрационное крепление поможет избежать попадания на запись колебаний поверхности, на которой установлена микрофонная стойка. В зависимости от типа микрофона и диаграммы направленности, необходимо занять верное положение перед стойкой.



Конденсаторный тип отличается от динамического более широкой диафрагмой и высокой чувствительностью. Динамические микрофоны воспринимают меньший спектральный охват, что положительно сказывается на сокращении внешних шумов, но имеет обратный эффект — записанный голос теряет полноту тембра. С целью сохранения естественного окраса рекомендуют записывать голос стоя, поскольку гортань и диафрагма в таком положении раскрываются максимально полно. Это не обязательное требование, здесь чтец может проявить себя настоящим эгоистом и выбрать то положение, которое удобно ему.

Характер голоса сильно зависит от положения рта по отношению к микрофону. Оптимально, чтобы диафрагма микрофона и губы чтеца находились на одном уровне. У любого микрофона есть так называемый эффект близости, который подразумевает избыточное содержание низкочастотной составляющей спектра в сигнале, когда микрофон находится рядом с его источником. Это прямо связано с тем, что низкочастотные волны имеют большую длину волны по сравнению с высокочастотными.



Для того, чтобы в захваченном голосе не преобладали басы, необходимо разместить микрофон в 15−20 см от себя и варьировать это расстояние до тех пор, пока результат вас не устроит.

Еще один верный способ избежать посторонних шумов, а заодно и искажений голоса — настройка чувствительности микрофона. Не нужно записывать звук на полной громкости. Установите уровень на самом микрофоне, аудиоинтерфейсе, к которому он подключен, или в программном обеспечении на 50−70% и сделайте несколько пробных записей. Важно, чтобы пики волны не превышали 0 дБ и оставались в пределах от -12 до -3 дБ. Не стоит производить запись с предустановленной обработкой аудиоэффектами, поэтому отложите коррекцию звука на этап постпродакшна. Остальные советы касаются организации процесса озвучивания и того, чего не стоит перед ним делать.

Мы — это то, что мы едим. Известная формулировка касается и наших голосовых возможностей, поскольку продукты питания влияют на то, как вы звучите. Непосредственно перед началом озвучки лучше исключить из рациона: цитрусовые — они образуют мокроту вокруг связок, тем самым вызывая желание откашляться; чай, кофе, алкогольные и газированные напитки, которые сушат горло — замените их стаканом теплой воды, выпитым за полчаса до сессии; молочные продукты усиливают слюноотделение, а это совсем не то, что нужно во время записи голоса.



Еще один лайфхак, который легко упустить из вида по неопытности: не останавливайте запись даже в том случае, когда допустили дикционную ошибку или неверно подобрали интонацию. Сделайте паузу, чтобы перевести дух, перечитайте и произнесите фразу заново. Неудачный дубль можно вырезать в аудиоредакторе, а прервав запись очень просто утратить нить повествования и верный настрой. Всегда захватывайте естественный шум комнаты в конце или начале дублей, даже если это всего 10 секунд относительной тишины. Это потребуется для будущей обработки в аудиоредакторе, чтобы программа распознавала, какие недочеты следует устранить.

Чем выше качество исходного файла, тем меньше времени занимает финальная стадия подготовки материала, тем легче добиться хорошего результата при обработке. Сегодня на рынке представлено огромное количество специализированного софта, предназначенного для записи или редактирования аудио. Если вы новичок в деле продакшна, то вряд ли сразу решите приобретать довольно дорогостоящие Adobe Audition или iZotope RX. Одна из наиболее популярных альтернатив — Audacity, которая несмотря на мощный инструментарий средств для обработки звука, абсолютно бесплатна и вдобавок локализована. Смонтируйте одну дорожку, собрав удачные дубли. Вне зависимости от того, на какой программе вы остановились, весь процесс реставрации можно условно разделить на три стадии: шумоподавление, обработка эквалайзером, компрессия.

На первом этапе приоритетно очищение трека от постоянных шумов и артефактов. Даже при тщательной акустической коррекции пространства полностью избежать их в домашних условиях невозможно. Здесь на помощь приходят различные инструменты шумопонижения (Noise Reduction) и шумоподавления (Noise Gate). Разница заключается в том, что первый способ значительно уменьшает шумы без внесения заметных искажений, а второй полностью срезает нежелательную область. Для того, чтобы программа отфильтровала то, что нужно устранить, от того, что оставить, необходимо создать модель шума. Выделите в редакторе отрезок волны, на котором нет голоса. Чем он продолжительнее, тем более точен будет анализ общей звуковой картинки. Полученные результаты примените ко всему аудиофайлу. Принцип действия Noise Gate чуть более сложен: в соответствующем окне необходимо вручную задать пороговое значение Threshold, при достижении которого сигнал будет ограничиваться. Для дальнейшей очистки воспользуйтесь специальными плагинами, например, De-Clicker, который определяет и устраняет призвуки от смыкания-размыкания губ; De-plosive, исправляющим глухие согласные; DeEsser для среза шипящих и свистящих; DeHum, удаляющим гул электросети.

После выравнивания основных и подавления не основных частот, приступайте к компрессии и лимитеру. Компрессор необходим для того, чтобы нормализовать динамику сигнала, сделать его плотнее и устранить резкие пики волны. Дело в том, что любой звук имеет свой динамический диапазон — разницу между самыми тихими и громкими звуками. Это наглядно иллюстрирует необработанная компрессором форма волны, в которой расстояния между тихими и громкими звуками ярче выражены. Как правило, пики следует нормализовать до -6дБ.

Чтобы избежать эффекта перегрузки (клиппинга) и подавить кратковременные всплески уровней при выравнивании динамики, задайте уровень максимального выхода в лимитере на -3дБ. Затем увеличивайте усиление в лимитере до тех пор, пока не добьетесь громкого, чистого и стабильного звука.

Дать единые правила для всех невозможно. Существует слишком много факторов, которые индивидуальны в каждом случае: условия, в которых был записан материал, ваше видение того, как должна звучать аудиокнига. Проще будет тем чтецам, которые ориентируются на хорошие примеры аудиокниг и пытаются привести свой проект к тем же стандартам.

Пост-продакшн — это отдельное ремесло, но и оно постигается путем проб и ошибок. Смотрите видеоуроки, экспериментируйте с настройками параметров и всегда слушайте то, как они влияют на общее звучание. Мы уверены, что у вас все получится.


Заманчиво думать о треке, как о чём-то неограниченном физическим пространством, для заполнения которого нужно просто добавить больше различных звуков. Но в действительности, музыкальное пространство, как и холст, имеет границы: Существует предел того, сколько вы можете добавить, прежде чем начнете перекрывать то, что уже есть в вашей композиции.

Решение:

QJuHjh-8TqQ

Автор: Деннис ДеСантис.
Перевод и адаптация на русский язык: Артем Реверс.

Артём Реверс

Ди-джей и продюсер с 2006 года. Пишет и выпускает музыку под псевдонимом Spellbound. Основатель проекта Sonic Space, в рамках которого является автором всех курсов и видеоуроков. Выпускался на Baroque Records.

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

Шумоподавление – это процесс выделение полезного сигнала из смеси полезного сигнала и шума. Допустим, у нас есть речь человека, записанная на оживлённой улице, в таких условиях одновременно с речью могут появляться другие звуки:

шум дорожного движения (шум шин, звуковые сигналы);

фоновая речь людей (речь прохожих, реклама, обращения торговцев);

ремонт/стройка в городе (грохот плит, сверление).

Задача шумоподавления в этом случае – выделение целевой речи человека, например, репортёра на улице, среди шума. Ниже представлены спектрограммы одной аудиозаписи, по ней можно понять, какую операцию нам нужно проводить автоматически.


Наша команда в МТС ИИ, которая называется ASR End2End, экспериментирует с различными видами шумоподавления как предобработки сигнала для последующего распознавания речи. Мы обсудим далее, что такое применение шумоподавления несколько отличается от шумоподавления для улучшения звучания аудио для человеческого уха.

Шум в звуковом сигнале определяется как беспорядочные колебания звуковых волн. Формально взаимодействие полезного сигнала и шума обычно описывается в литературе следующей формулой:

– смесь полезного сигнала и шума, т.е. сигнал из реальных условий записи.

Теперь мы можем сформулировать цель задачи шумоподавления или улучшения аудио: имея зашумлённый процесс , нужно найти значение , максимально приближенное к исходному сигналу .

Шумоподавление в нашей жизни

Методы шумоподавления используются при очистке аудио от лишних звуковых событий для последующего повторного воспроизведения. При монтаже фильмов, музыки, подкастов и прочих медиа зачастую требуется избавляться от лишних звуковых событий. При таких задачах может также потребоваться общее улучшение качества записи. Это включает в себя не только удаление шума, но и модифицирование сигнала, которое может улучшить восприятие записанной речи. Подобные инструменты обычно доступны в редакторах аудио и программах-микшерах для создания треков. Например, в одном из самых известных аудиоредакторов Audacity используется подход, который называется “шумовые ворота” (noise gate), вернее, их конкретная спектральная разновидность, используемая после быстрого преобразования Фурье (FFT). Помимо этого, в Audacity есть оконные механизмы по сглаживанию сигнала и удалению его небольших артефактов. Инструменты в Audacity по шумоподавлению особенно хорошо подходят для восстановления микрокассетных записей [1].


Популярной и сложной задачей является шумоподавление на лету – шумоподавление и воспроизведение одновременно с записью речи. Преследуемая цель – это маскировка звуков, которые не имеют отношения к произносимой человеком информации и мешают ее восприятию. Чаще всего такое шумоподавление используется для аудиоконференций в Skype, Zoom, Discord и пр. Шумоподавление на лету как правило использует те же принципы “шумовых ворот”, но помимо этого применяются методы машинного обучения для очистки сигнала на лету. Например, компания Microsoft по результатам соревнования DNS-Challenge [2] адаптировала наилучшие решения под свои разработки Skype и Teams. Эти решения основаны на рекуррентных нейронных сетях с LSTM блоками и на свёрточных нейронных сетях [3, 4]. В результате новейшие версии Skype и Teams способны в режиме реального времени транслировать чистый голос при наличии агрессивных шумов: дрели, вентилятора или ветра.


Классификация шумов

Существует множество разных классификаций шумов, например, по характеру спектра или по частоте волн. Однако, когда мы хотим избавиться от шумов в записи речи, стоит в первую очередь учитывать категоризацию шумов по временным характеристикам:


Как вы могли заметить, временные характеристики шума тесно связаны со способом образования шума: стационарный и колеблющийся шум, как правило, образованы какими-то постоянными процессами (естественными или искусственными), тогда как прерывистый и импульсный – резкими одноразовыми процессами. Прерывистый шум для простоты можно воспринимать как повторяющийся с некоторой периодичностью импульсный шум.

Категории шума приведены для того, чтобы разграничить шумы по сложности их подавления. Сложность задачи шумоподавления кроется в непредсказуемости шумов, которые могут возникнуть в звуковом сигнале. Мы можем с относительной лёгкостью убрать шум из сигнала, если нам заранее известно, какой вид шума находится в этом сигнале и где. Кроме того, нам достаточно легко избавляться от стационарного шума, потому что мы легко можем определить порог громкости в спектре, так как белый шум будет равномерно распределён по всему сигналу, и во фрагментах тишины мы будем чётко наблюдать амплитуды шума. Можно построить следующую пирамиду сложности задач:


Если задачи наверху пирамиды можно решить вычислительными методами, то задачи в нижней части пирамиды можно решить только методами машинного обучения. Если вычислительные методы решают задачи избавления сигнала от определенного шума, то нейросетевые методы обучаются решать задачу выделения только релевантной речевой информации из всего аудиопотока.


Давайте теперь подробно разберем, как традиционные, так и продвинутые методы шумоподавления в аудио.

Традиционные методы шумоподавления

О самых простых традиционных методах шумоподавления я уже рассказала, они используются в условиях, когда мы программно не знаем, какой характер шума и речи. Такое отсутствие информации также наблюдается, когда мы хотим избавляться от шума на лету. При таком шумоподавлении используются обычные или спектральные пороги – заглушаются любые отзвуки, если они не превышают определённого порога по громкости.

В основе других традиционных методов лежит моделирование распределения чистой речи или шума. Делается это с помощью нахождения спектральной плотности мощности (громкости) сигнала. Плотность мощности сигнала – вариант описания распределения значений сигнала в разные моменты времени. Спектральная плотность мощности сигнала, в свою очередь, – функция, которая описывает распределение мощности сигнала в зависимости от частоты, а именно – возможную мощность в различные единицы частоты. В таком случае, имея спектральную плотность мощности шума, можно использовать метод спектрального вычитания (spectral subtraction).


Винеровское оценивание (Wiener filter) используется в качестве одного из традиционных обучаемых способов шумоподавления, отчасти похожий на метод спектрального вычитания. Этот подход основан на оптимальном подборе такого фильтра, который бы минимизировал разницу между чистым сигналом и улучшенным сигналом. Подобно некоторым алгоритмам машинного обучения, при вычислении винеровского фильтра минимизируется метрика Mean Square Error (MSE).

где - спектр чистого сигнала, - спектр зашумлённого сигнала, - спектр шумного сигнала.

Нейросетевые методы шумоподавления

Прежде чем мы углубимся в конкретные алгоритмы, стоит упомянуть, что все указанные ниже алгоритмы используются как для разграничения спикеров или инструментов, так и для шумоподавления. При шумоподавлении важно обозначить, что шум и чистая речь – два независимых процесса, которые возникают одновременно во времени, как два отдельных инструмента в музыкальной композиции.

В зависимости от способа решении задачи шумоподавления, разграничения спикеров или улучшения сигнала алгоритмы машинного обучения можно разделить на две категории:


До описанных выше нейросетевых подходов использовались нейросетевые методы наложения масок на спектрограмму в сочетании с прямым и обратным преобразованиями Фурье. Однако подходы, которые основаны на маскировании спектрограмм, имеют некоторые недостатки. Например, фаза волны в чистом сигнале может отличаться от фазы волны в зашумлённом сигнале. Поэтому даже при вычислении идеальной маски для спектрограммы, восстановленная из грязного сигнала фаза может вносить какие-то элементы шума и портить итоговое качество шумоподавления.


Еще одним недостатком такой системы является сложность вычисления частотных характеристик сигнала с помощью быстрого преобразования Фурье. Окно для такого преобразования должно быть достаточно большим для лучшего качества декомпозиции на частоты, что увеличивает количество вычислений. Большое количество вычислений приводит к низкой скорости работы алгоритма и его становится сложно применять в реальном времени.

Conv-TasNet

Предшественник этой архитектуры – TasNet [6]. Архитектура TasNet состоит из свёрточных энкодера и декодера с некоторыми особенностями:

выход энкодера ограничен значениями от нуля до бесконечности [0, ∞);

линейный декодер конвертирует выход энкодера в акустическую волну;

подобно многим методам-предшественникам на основе спектрограмм, на последнем этапе система аппроксимирует взвешивающую функцию (в данном случае LSTM) для каждого момента времени.

Conv-TasNet – модификация алгоритма TasNet, которая использует в качестве взвешивающей функции свёрточные слои с расширением (dilation). Это модификация была сделана после того, как свёртки с расширением показали себя эффективным алгоритмом при одновременном анализе и генерации данных переменной длины, в частности, для синтеза в таких решениях, как WaveNet [7].

Подход для разделения аудио/шумоподавления Conv-TasNet состоит из 3-х компонентов:

– смесь в определённый момент времени,

– количество источников, несущих вклад в смесь,

– источники в определённый момент времени.

Задача алгоритма машинного обучения – определить источники s1(t), … , sc(t), зная заранее количество источников C и смесь x(t).


1D блок, который используется в качестве энкодера и декодера, имеет следующую структуру:


Более подробно можно ознакомиться с алгоритмом и результатами экспериментов в исходной статье [8].

DEMUCS

Алгоритм DEMUCS или глубокое извлечение музыкальных источников (Deep Extractor for Music Sources) также используется для задач разделения источников в сигнале и шумоподавления. В отличие от предшественника Conv-TasNet, этот алгоритм напрямую генерирует источники из исходного сигнала, минуя промежуточное предсказание масок.


В качестве бутылочного горлышка в DEMUCS – однонаправленный LSTM слой. Это позволяет эффективно использовать алгоритм для анализа потоковых данных. Кодировщик и декодировщик сформированы из блоков, которые составлены из свёрточных слоёв (1D, 1x1 и 1D Transpose) и функций активации (Gated Linear Unit и Rectified Linear Unit). Они скомпозированы следующим образом:


В качестве функции потерь при шумоподавлении достаточно использовать L1 Loss между предсказанной записью и эталонной, но для улучшения сходимости авторы статьи используют также STFT Loss разного масштаба (STFT с разными параметрами при подсчёте функций потерь), который является суммой двух функций потерь – сходимости (spectral convergence) и амплитуд (magnitude):

HiFi-GAN

Походы, о которых я рассказала, хорошо генерализируются при решении задач шумоподавления, чтобы вычленять речь и избавляться от неречевых событий в аудио потоке. Но все эти алгоритмы могут создавать артефакты в сигнале, которые могут мешать восприятию человеком, либо портить качество дальнейшей автоматической обработки, например, распознавания речи. Отчасти избавиться от артефактов помогает сглаживание, как я упоминала ранее, но оно часто попутно снижает чёткость всего аудио. В отличие от предшественников, генеративно-состезательная сеть высокой точности (High Fidelity Generative Adversarial Network) хорошо справляется с генерацией аудио подобно студийной записи без артефактов искусственной генерации.


Алгоритм состоит из трёх основных частей:


За генерацию чистого сигнала на основе зашумлённого отвечает блок WaveNet, этот алгоритм изначально успешно использовался для синтеза речи (текст → аудио). При модификации задачи для анализа аудио эта архитектура также показала себя эффективной. Особенность WaveNet-а для шумоподавления в том, что генерация нового сигнала происходит для всей записи целиком, а не для каждого момента времени t_n, как это делается в исходном алгоритме WaveNet. Это позволяет улучшать скорость генерации за счёт параллелизации процессов, которые могут выполняться одновременно.


После генерации WaveNet-ом сигнал проходит через несколько свёрточных слоёв, этот этап называется Postnet. Postnet нужен, чтобы исправлять и уточнять грубое и приближенное предсказание WaveNet-а. Кроме Postnet-а регулирующее действие дополнительно оказывают четыре разных дискриминатора, которые обучены отделять чистые оригинальные записи от сгенерированных. Каждый дискриминатор принимает выход Postnet-а в разном формате:

Сигнал в исходном виде с разной частотой дискретизации:

Всё вместе связывается в следующую архитектуру:


В итоге для обучения используются следующие функции потерь (ФП):

L1 (абсолютная ошибка на сигнале);

ФП на лог-спектрограммах предсказаний и чистого сигнала после преобразования Фурье со следующими параметрами:

размер окна 2048 и шаг 512,

размер окна 512 и шаг 128

Состязательная ФП (adversarial loss) для обучения Postnet-a;

ФП глубинных признаков (deep feature loss) для обучения дискриминаторов.

Более подробно о функциях потерь, об архитектуре, а также об экспериментах советую ознакомиться в исходной статье [10]

В заключение

В последние несколько лет тема нейросетевого шумоподавления становится все популярнее и пока не останавливается на достигнутом. Проводятся соревнования по шумоподавлению, в том числе по шумоподавлению потоковых данных, где отрабатываются очень интересные алгоритмы, кроме тех, о которых я рассказала [11]. Но если хочется с чего-то начать, то сначала предлагаю познакомиться с ними! :)

Читайте также: