клонирование голоса для модели

Алекс Альтек

Ниже приведён пример кода на Python, который:

Извлекает аудио из видео (через вызов ffmpeg)
Транскрибирует аудио с помощью Whisper
Использует Real-Time-Voice-Cloning (RTVC) для синтеза речи с голосом из аудио
ВАЖНО:

Для работы этого кода нужно, чтобы на компьютере был установлен ffmpeg и Python-библиотеки whisper и RTVC (Real-Time-Voice-Cloning).
RTVC — это отдельный проект со сложной структурой, его нельзя просто импортировать как библиотеку.
Внизу ссылка и пример, как запустить демо RTVC из командной строки.
Здесь показан упрощённый пример для этапов 1 и 2, а для 3 — инструкция, как запустить RTVC.

Шаг 1 и 2: Извлечение аудио и транскрипция с Whisper

import subprocess
import whisper

def extract_audio(video_path, audio_path="audio.wav"):
# Используем ffmpeg для извлечения аудио
subprocess.run([
      "ffmpeg", "-y", "-i", video_path,
      "-q:a", "0", "-map", "a", audio_path
], check=True)
print(f"Audio extracted to {audio_path}")

def transcribe_audio(audio_path):
model = whisper.load_model("small") # Можно заменить на tiny/medium/large
result = model.transcribe(audio_path, language="ru")
print("Transcription:")
print(result["text"])
return result["text"]

if __name__ == "__main__":
video_file = "input_video.mp4" # Путь к вашему видео
audio_file = "audio.wav"

extract_audio(video_file, audio_file)
transcript = transcribe_audio(audio_file)

# Здесь можно сохранить транскрипт в файл:
with open("transcript.txt", "w", encoding="utf-8") as f:
      f.write(transcript)

Шаг 3: Клонирование голоса и синтез с Real-Time-Voice-Cloning
Real-Time-Voice-Cloning — это отдельный проект:

Репозиторий: https://github.com/CorentinJ/Real-Time-Voice-Cloning
Инструкция по установке и запуску — в README репозитория.

Там есть скрипт demo_cli.py, который позволяет синтезировать речь из текста и аудио.

Чтобы использовать RTVC для вашего аудио:

Клонируйте репозиторий и установите зависимости:
git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git
cd Real-Time-Voice-Cloning
pip install -r requirements.txt

Скачайте предобученные модели (ссылки в README).

Запустите демо:

python demo_cli.py

Введите путь к вашему audio.wav (лучше короткий фрагмент с речью).

Введите текст, который хотите синтезировать (можно взять из транскрипта).

Код выше извлечёт аудио и сделает транскрипцию.
Для синтеза с вашим голосом используйте RTVC отдельно.

RTVC не имеет простой API, его сложно встроить в один скрипт без глубокого понимания проекта.

Если хотите, могу помочь с инструкциями по установке RTVC или подсказать, как сделать всё на вашем компьютере. Просто скажите, какая ОС и какой у вас опыт с Python.

ТОП-10 нейросетей для озвучки текста голосом 2025: бесплатные и платные сервисы TTS с реалистичными мужскими и женскими голосами на русском и английском языках

Хочу поделиться с вами своими находками в сфере нейросетей для озвучки — я лично проверил десятки сервисов TTS за последние полгода, создавая контент для своего проекта. Вы наверняка сталкивались с проблемой качественной озвучки текста голосом: либо бесплатная озвучка текста звучит как робот из 90-х, либо платная озвучка текста стоит баснословных денег. Скажу честно — рынок синтеза речи кардинально изменился в 2025 году, и теперь можно получить реалистичный голос из текста практически бесплатно.

https://www.naturalreaders.com/online

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Алекс Альтек

Рецензии

Написать рецензию

Другие произведения автора Алекс Альтек

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.