клонирование голоса для модели
Извлекает аудио из видео (через вызов ffmpeg)
Транскрибирует аудио с помощью Whisper
Использует Real-Time-Voice-Cloning (RTVC) для синтеза речи с голосом из аудио
ВАЖНО:
Для работы этого кода нужно, чтобы на компьютере был установлен ffmpeg и Python-библиотеки whisper и RTVC (Real-Time-Voice-Cloning).
RTVC — это отдельный проект со сложной структурой, его нельзя просто импортировать как библиотеку.
Внизу ссылка и пример, как запустить демо RTVC из командной строки.
Здесь показан упрощённый пример для этапов 1 и 2, а для 3 — инструкция, как запустить RTVC.
Шаг 1 и 2: Извлечение аудио и транскрипция с Whisper
import subprocess
import whisper
def extract_audio(video_path, audio_path="audio.wav"):
# Используем ffmpeg для извлечения аудио
subprocess.run([
"ffmpeg", "-y", "-i", video_path,
"-q:a", "0", "-map", "a", audio_path
], check=True)
print(f"Audio extracted to {audio_path}")
def transcribe_audio(audio_path):
model = whisper.load_model("small") # Можно заменить на tiny/medium/large
result = model.transcribe(audio_path, language="ru")
print("Transcription:")
print(result["text"])
return result["text"]
if __name__ == "__main__":
video_file = "input_video.mp4" # Путь к вашему видео
audio_file = "audio.wav"
extract_audio(video_file, audio_file)
transcript = transcribe_audio(audio_file)
# Здесь можно сохранить транскрипт в файл:
with open("transcript.txt", "w", encoding="utf-8") as f:
f.write(transcript)
Шаг 3: Клонирование голоса и синтез с Real-Time-Voice-Cloning
Real-Time-Voice-Cloning — это отдельный проект:
Репозиторий: https://github.com/CorentinJ/Real-Time-Voice-Cloning
Инструкция по установке и запуску — в README репозитория.
Там есть скрипт demo_cli.py, который позволяет синтезировать речь из текста и аудио.
Чтобы использовать RTVC для вашего аудио:
Клонируйте репозиторий и установите зависимости:
git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git
cd Real-Time-Voice-Cloning
pip install -r requirements.txt
Скачайте предобученные модели (ссылки в README).
Запустите демо:
python demo_cli.py
Введите путь к вашему audio.wav (лучше короткий фрагмент с речью).
Введите текст, который хотите синтезировать (можно взять из транскрипта).
Код выше извлечёт аудио и сделает транскрипцию.
Для синтеза с вашим голосом используйте RTVC отдельно.
RTVC не имеет простой API, его сложно встроить в один скрипт без глубокого понимания проекта.
Если хотите, могу помочь с инструкциями по установке RTVC или подсказать, как сделать всё на вашем компьютере. Просто скажите, какая ОС и какой у вас опыт с Python.
ТОП-10 нейросетей для озвучки текста голосом 2025: бесплатные и платные сервисы TTS с реалистичными мужскими и женскими голосами на русском и английском языках
Хочу поделиться с вами своими находками в сфере нейросетей для озвучки — я лично проверил десятки сервисов TTS за последние полгода, создавая контент для своего проекта. Вы наверняка сталкивались с проблемой качественной озвучки текста голосом: либо бесплатная озвучка текста звучит как робот из 90-х, либо платная озвучка текста стоит баснословных денег. Скажу честно — рынок синтеза речи кардинально изменился в 2025 году, и теперь можно получить реалистичный голос из текста практически бесплатно.
https://www.naturalreaders.com/online
Свидетельство о публикации №125062003636