Читать книгу Генерация голоса с помощью ComfyUI - - Страница 2

Глава 1. Интерфейс и принципы построения рабочих процессов

1.1. Структура нод (узлов) и их взаимосвязи

Нода (узел) в ComfyUI – это автономный модуль, выполняющий конкретную операцию в рамках рабочего процесса (workflow). Вся логика строится на соединении нод между собой через входные и выходные параметры.

Ключевые элементы ноды:

Заголовок – название ноды и её тип (например, Text Input, TTS Model).

Входы (слева) – поля для подключения данных от других нод.

Выходы (справа) – результаты работы ноды, передаваемые дальше.

Параметры (в центре) – настраиваемые опции (ползунки, выпадающие списки, текстовые поля).

Статус – индикатор выполнения (цветной кружок: зелёный – готово, жёлтый – в процессе, красный – ошибка).

Типы связей между нодами:

Данные – передача аудио, текста, параметров.

Управление – условные переходы (например, ветвление по качеству аудио).

Ссылки – повторное использование результатов (кэширование).

Принцип построения workflow:

1. Размещаете ноды на холсте.

2. Соединяете выходы одной ноды со входами другой (перетаскиванием мыши).

3. Настраиваете параметры каждой ноды.

4. Запускаете процесс кнопкой Queue Prompt.

1.2. Базовые ноды для обработки аудио

Ниже – ключевые ноды для синтеза и обработки голоса.

1. Text Input

Функция: ввод текстового сценария для синтеза.

Вход: отсутствует.

Выход: строка текста (тип STRING).

Параметры: поле для ручного ввода или загрузки из файла.

2. TTS Model

Функция: преобразование текста в мел‑спектрограмму.

Вход: текст (STRING) от Text Input.

Выход: мел‑спектрограмма (SPECTROGRAM).

Параметры:

выбор модели (Tacotron2, FastSpeech2 и др.);

скорость речи (speed);

интонация (pitch).

3. Vocoder

Функция: перевод спектрограммы в аудиосигнал.

Вход: спектрограмма (SPECTROGRAM) от TTS Model.

Выход: аудиофайл (AUDIO).

Параметры:

тип вокодера (WaveNet, MelGAN);

частота дискретизации (sample rate).

4. Audio Output

Функция: сохранение аудио на диск.

Вход: аудио (AUDIO) от Vocoder.

Выход: путь к файлу (PATH).

Параметры:

формат (WAV, MP3);

папка для сохранения.

5. Audio Effect

Функция: постобработка звука (эквализация, реверберация).

Вход: аудио (AUDIO).

Выход: обработанное аудио (AUDIO).

Параметры:

тип эффекта (reverb, eq, compression);

интенсивность.

6. Voice Cloner

Функция: клонирование голоса по референсному аудио.

Входы:

текст (STRING);

референсное аудио (AUDIO).

Выход: синтезированное аудио (AUDIO) в стиле диктора.

Параметры:

модель (YourTTS, VITS);

степень переноса стиля (style strength).

1.3. Сохранение и экспорт рабочих процессов

Сохранение workflow:

1. В меню File выберите Save или Save As.

2. Файл сохраняется в формате JSON (например, `tts_workflow.json`).

3. В файле хранятся:

позиции нод на холсте;

связи между нодами;

значения параметров.

Экспорт для повторного использования:

Шаблоны: сохраняйте типовые цепочки (например, «Базовый TTS») как шаблоны.

Обмен: передавайте JSON‑файл коллегам – они откроют его в своём ComfyUI через Load.

Резервное копирование:

Храните копии JSON‑файлов в облаке или системе контроля версий (Git).

Для критичных проектов дублируйте модели и настройки.

Импорт чужого workflow:

1. Скачайте JSON‑файл.

2. В ComfyUI нажмите Load и выберите файл.

3. Проверьте:

наличие всех требуемых моделей (могут быть указаны в комментариях к нодам);

корректность путей к файлам.

Советы:

Используйте комментарии (Note Node) для описания логики workflow.

Группируйте ноды в логические блоки (через Ctrl + G).

Тестируйте workflow поэтапно (запускайте отдельные подграфы через Right‑click → Execute).

Подняться наверх