Настройка склейки
Эти параметры применяются в момент физического удаления (или разметки) найденного слова-паразита в аудио. Они отвечают за естественность звучания, помогая избежать эффекта обрубленной и «роботизированной» речи на местах монтажных стыков.
В интерфейсе приложения REZA за этот процесс отвечают два основных параметра.
1. Отступы (Padding)
Нейросеть выдает таймстемпы начала и конца слова с точностью до миллисекунд. Однако резкая обрезка строго по этим границам часто звучит неестественно, так как удаляет естественные микровдохи и затухания звука вокруг произнесенного слова.
Как это работаетПараметр определяет, сколько дополнительных миллисекунд аудио будет захвачено алгоритмом вокруг обнаруженного мусора (расширение окна вырезания).
Значение «0»Алгоритм произведет максимально резкую склейку точно по границам таймстемпов нейросети. Это часто звучит неестественно.
Оптимальные значенияМы рекомендуем значения в районе 50 мс. Это оставляет микро-секунды «воздуха» по краям, сохраняя дыхание спикера и делая ритм речи более плавным.
2. Сглаживание (Crossfade)
При любой жесткой обрезке двух звуковых фрагментов на таймлайне есть высокий риск появления «цифрового щелчка» (аудио-артефакта, возникающего на стыке несовпадающих фаз звуковой волны).
- Как это работает: Параметр определяет длительность взаимного наложения (crossfade) между аудио-фрагментами, которые остаются «до» и «после» вырезанного паразита.
- Механика процесса: На протяжении указанного вами времени (например, 50 мс) алгоритм плавно микширует звуковые волны — делает fade-out (затухание) конца первого фрагмента и fade-in (нарастание) начала второго фрагмента.
РезультатЭто размытие стыка эффективно удаляет цифровые щелчки и делает шов абсолютно незаметным для слуха.
