Изи гайд для установки нейросети по преобразованию голоса

Вы, наверное, уже видели кучу каверов на известные песни спетые другими исполнителями. К примеру, «Summertime sadness» Ланы Дель Рей перепетая Канье Уэстом. Естественно, сам он не пел, это сделала нейросеть.
Так вот, в этой статье мы расскажем как установить эту нейросеть, а именно So-VITS-SVC (SoftVC VITS Singing), и как ей пользоваться. Все очень просто, программистом быть не нужно.

1. Степ намбер ван — устанавливаем Python

В одной из прошлых статей мы писали как это сделать, переходите на эту статью и просто выполните первый пункт из нее, не более.

2. Устанавливаем саму нейросеть

В командной строке вводите: pip install -U so-vits-svc-fork

И всё, система все сделает сама.

3. Разделяем песню, которую хотим изменить, на отдельные части: инструментал и вокал

В просторах интернета много ресурсов, где вы можете это сделать. Вот некоторые из них:

Vocalremover. Бесплатно дается 1 файл максимальной продолжительностью 10 минут, более обширен в инструментах, можно выделить и отдельные инструментальные партии.

Бесплатный mvsep. Ничего сложного, загружаете аудиозапись, выбираете тип разделения «вокал, музыка», скачиваете оба файла

4. Скачиваем голосовую модель (то есть тот голос, в чьем исполнении мы хотим услышать песню)

Где нам их найти? Конечно там где сейчас есть все — в дискорде.

Переходим по ссылочке в нужный нам канал и выбираем из предложенных голос того человека или персонажа, который нам нужен, кликаем на него, открывается пост, в нем указана ссылка, как правило, на облачное хранилище. Вы увидите там либо архив к скачиванию, либо файлы. Вам обязательно нужно, чтобы было два файла в форматах pth и json. Сохраняем их на компьютер.

Мне нужен был голос Эрика Картмана из Саус Парка, на тот момент в дискорде не было этого файла, поэтому брали здесь.

Переходим по ссылке, жмем «Files and versions»

Выбираем папку с нужным голосом.

Скачиваем оба файла.

5. Наконец-то приступаем к работе с нейросетью

Есть два варианта открытия приложения.

В командной строке вводим: svc gui. И должно открыться такое окно:

Если вдруг у вас не получилось и вышла ошибка, например, что такой команды нет, попробуйте найти отдельно приложение svc-gui.exe в папке с Python и запустить его.

У нас вышло такое окно, но мы не стали вникать, просто окнули, подождали и все открылось.

В данном поле Model path выбираем ранее скачанный файл pth:

В Config path файл json:

В поле Input audio path выбираем аудиофайл где только вокал той песни, которую мы будем менять:

Здесь вы задаете имя и расположением новой аудиозаписи, которая получиться в конце:

Рекомендуем снять галочку с Auto play, чтобы не снижать производительность:

Если вы хорошо шарите в звукообработке, то настраиваете поля как считаете нужным, если нет — позвольте системе применить параметры по умолчанию и самой подстроиться под ваш файл

И запускайте обработку записи нажатием на Infer:

В командной строке происходит процесс обработки, отображается ее статус, делать ничего не нужно:

По окончанию, в заданной вами папке, найдете долгожданную запись.А здесь прикладываем наш AI-кавер на песню группы a-ha «Take on me» голосом Эрика Картмана из «Южного Парка».