Чувствительность хезитаций
Hesitation Settings
Помимо явных слов-паразитов (таких как «короче» или «ну типа»), спикеры часто используют невербальные заполнители пауз: мычание, тяжелые вздохи или протяжные звуки «эээ» и «ммм».
Базовая нейросеть (модель CTC) иногда может не выводить такие звуки в прямую текстовую транскрипцию, если они сливаются с фоном между словами. Для их гарантированного обнаружения REZA использует дополнительный эвристический алгоритм анализа энергии звука (detect_gap_hesitations).
Параметры в этой группе управляют тем, насколько глубоко и придирчиво этот алгоритм будет сканировать паузы в речи.
ГЛАВНОЕ ПРАВИЛО РАЗДЕЛА
Логика работы этих ползунков обратна привычной. Чем МЕНЬШЕ значение вы устанавливаете, тем АГРЕССИВНЕЕ работает алгоритм. Уменьшение значений приведет к тому, что программа будет находить и вырезать значительно больше аудио-фрагментов.
1. Минимальная пауза (Min Gap)
Этот параметр работает как защита естественного темпа и ритма речи. Часто люди могут произнести звук «эээ» прямо посередине быстрой, слитной фразы, вообще не делая остановки. Если алгоритм вырежет такой звук, целостность предложения разрушится, а речь станет рваной.
- Как это работает: Программа измеряет длину абсолютной тишины (паузы) вокруг потенциального мусорного звука. Алгоритм начнет проверять наличие скрытых хезитаций только в тех паузах, длительность которых превышает установленное вами значение (в секундах).
- Поведение при уменьшении (Агрессивный режим): Если вы сдвинете ползунок влево (уменьшите значение), алгоритм начнет вгрызаться даже в самые короткие микропаузы внутри слитной речи, беспощадно вырезая малейшие запинки.
- Поведение при увеличении (Щадящий режим): Если вы увеличите значение, программа будет искать мусор только в длинных, явно выраженных остановках между предложениями, игнорируя запинки внутри самих фраз.
2. Порог громкости мусора (Energy Threshold)
Нейросеть иногда может допускать ложные срабатывания (галлюцинировать), принимая шумное дыхание, фоновый шорох или естественный вздох за паразитное мычание. Данный параметр помогает алгоритму отличить реальную хезитацию от фонового шума.
- Как это работаетАлгоритм вычисляет мощность (громкость) подозрительного звука внутри найденной паузы и сравнивает её со средней громкостью нормальной речи (speech energy) во всем вашем исходном файле. Параметр задается в виде соотношения. Например, значение
0.05означает, что алгоритм обратит внимание только на те звуки в паузах, громкость которых составляет более 5% от средней громкости голоса спикера. - Поведение при уменьшении (Агрессивный режим)Снижая порог, вы даете алгоритму команду реагировать на всё. Программа классифицирует как мусор и вырежет даже самые тихие шорохи, придыхания и едва уловимые звуки на фоне.
- Поведение при увеличении (Щадящий режим)Повышая порог, вы заставляете систему игнорировать тихие звуки. В таком случае будут вырезаны только явные, громкие и акцентированные звуки «эээ» и «ммм», а все вздохи останутся на таймлайне.
