Качественная и реалистичная озвучка липсинка — головная боль каждого, кто работает с рекламными креативами в больших объемах. Я до сих пор вижу в spy-сервисах много креативов с такой озвучкой и понимаю, сколько трафика они теряют. Неестественный, роботизированный голос — это почти гарантированное снижение конверсии.
ElevenLabs, безусловно, хорошо справляется с этой задачей, обеспечивая и реализм, и перевод на разные языки. Однако он не всегда удобен и к тому же платный.
Но похоже, на рынке появился новый сильный игрок, который идеально подходит под наши задачи.
.png)
Речь идет о Chatterbox, построенной на технологиях Resemble AI. Она предлагает мультиязычность (23 популярных языка, которых хватит для большинства ГЕО) и, что самое главное, проста в использовании и имеет почти бесплатный доступ. Это open-source AI, доступная на GitHub и, что удобнее всего, на платформе Hugging Face, где мы его и протестируем.
Вот какие языки поддерживает нейросеть:
.png)
Также нейросеть доступна на официальном сайте разработчика resemble.ai, НО я не рекомендую ей там пользоваться. По каким-то неведомым причинам, AI там справлялся с задачей не так, как это было на Huggingface, но, если хотите, вы можете протестировать — вам дадут 150 бесплатных секунд. Дерзайте!
Тестируем Chatterbox
Интерфейс максимально простой, вы можете пропустить этот заголовок и тестить сами.
Первым делом нам нужен референс голоса. Ищем в спайке или в телеграм каналах креатив на ваше ГЕО, с озвучкой и носителем языка и скачиваем видео. Для теста я взял два, польский и немецкий.
Теперь нам нужно извлечь аудио на любом сайте. Просто конвертировать mp4 в mp3.
Референс у нас на руках. Переходим на Huggingface.
.png)
Переходим на Hugging Face, сразу выбираем язык нашего аудио (в моем случае — DE) и загружаем наш MP3 референс вместо стандартного.
Для наилучшего результата язык референса и язык текста для озвучки должны совпадать.
.png)
Вставляем наш текст (до 300 символов за раз; длинные сценарии можно генерировать по частям), при необходимости настраиваем эмоциональность и темп речи, и нажимаем «Generate». И вот результат:
Как видите, голос получился неотличимым от реального, присутствуют шумы и говорит он так-же непринужденно.
Повторим эксперимент со вторым креативом на польском:
Результат снова на высоте. Нейросеть отлично справилась с задачей.
То что она полностью бесплатная это конечно мы приукрасили, в какой-то момент вы упретесь в лимиты, но если у вас есть впн и много разных айпи адресов, то для вас это не проблема 🙂
В любом случае, подписка на PRO начинается c 9$ в месяц, что очень мало.
Сохраняйте нейросеть в заметки. Всем удачных заливов и качественных креативов!