клонирование голоса для модели

Ниже приведён пример кода на Python, который:

Извлекает аудио из видео (через вызов ffmpeg)
Транскрибирует аудио с помощью Whisper
Использует Real-Time-Voice-Cloning (RTVC) для синтеза речи с голосом из аудио
ВАЖНО:

Для работы этого кода нужно, чтобы на компьютере был установлен ffmpeg и Python-библиотеки whisper и RTVC (Real-Time-Voice-Cloning).
RTVC — это отдельный проект со сложной структурой, его нельзя просто импортировать как библиотеку.
Внизу ссылка и пример, как запустить демо RTVC из командной строки.
Здесь показан упрощённый пример для этапов 1 и 2, а для 3 — инструкция, как запустить RTVC.

Шаг 1 и 2: Извлечение аудио и транскрипция с Whisper

import subprocess
import whisper

def extract_audio(video_path, audio_path="audio.wav"):
    # Используем ffmpeg для извлечения аудио
    subprocess.run([
        "ffmpeg", "-y", "-i", video_path,
        "-q:a", "0", "-map", "a", audio_path
    ], check=True)
    print(f"Audio extracted to {audio_path}")

def transcribe_audio(audio_path):
    model = whisper.load_model("small")  # Можно заменить на tiny/medium/large
    result = model.transcribe(audio_path, language="ru")
    print("Transcription:")
    print(result["text"])
    return result["text"]

if __name__ == "__main__":
    video_file = "input_video.mp4"  # Путь к вашему видео
    audio_file = "audio.wav"

    extract_audio(video_file, audio_file)
    transcript = transcribe_audio(audio_file)

    # Здесь можно сохранить транскрипт в файл:
    with open("transcript.txt", "w", encoding="utf-8") as f:
        f.write(transcript)


Шаг 3: Клонирование голоса и синтез с Real-Time-Voice-Cloning
Real-Time-Voice-Cloning — это отдельный проект:

Репозиторий: https://github.com/CorentinJ/Real-Time-Voice-Cloning
Инструкция по установке и запуску — в README репозитория.

Там есть скрипт demo_cli.py, который позволяет синтезировать речь из текста и аудио.

Чтобы использовать RTVC для вашего аудио:

Клонируйте репозиторий и установите зависимости:
git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git
cd Real-Time-Voice-Cloning
pip install -r requirements.txt

Скачайте предобученные модели (ссылки  в README).

Запустите демо:

python demo_cli.py

Введите путь к вашему audio.wav (лучше короткий фрагмент с речью).

Введите текст, который хотите синтезировать (можно взять из транскрипта).

Код выше извлечёт аудио и сделает транскрипцию.
Для синтеза с вашим голосом используйте RTVC отдельно.

RTVC не имеет простой API, его сложно встроить в один скрипт без глубокого понимания проекта.

Если хотите, могу помочь с инструкциями по установке RTVC или подсказать, как сделать всё на вашем компьютере. Просто скажите, какая ОС и какой у вас опыт с Python.



ТОП-10 нейросетей для озвучки текста голосом 2025: бесплатные и платные сервисы TTS с реалистичными мужскими и женскими голосами на русском и английском языках

Хочу поделиться с вами своими находками в сфере нейросетей для озвучки — я лично проверил десятки сервисов TTS за последние полгода, создавая контент для своего проекта. Вы наверняка сталкивались с проблемой качественной озвучки текста голосом: либо бесплатная озвучка текста звучит как робот из 90-х, либо платная озвучка текста стоит баснословных денег. Скажу честно — рынок синтеза речи кардинально изменился в 2025 году, и теперь можно получить реалистичный голос из текста практически бесплатно.


https://www.naturalreaders.com/online


Рецензии