/ai/ - Голосовых нейронок тред (TTS, STS, STT) #3

Голосовых нейронок тред (TTS, STS, STT) #3 /speech/ Аноним 20/08/23 Вск 01:06:06 № 461500 1

1577559427366.mp4 13736Кб, 1920x1080, 00:02:58

1543533656176.mp4 13842Кб, 1024x1408, 00:03:33

1643150738128.mp4 8711Кб, 780x256, 00:03:14

1606708732976.mp4 6860Кб, 1280x720, 00:02:23

1551863187930.webm 14110Кб, 1200x512, 00:04:44

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Text To Speech (TTS) 📝 👉 🎤

Silero
Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский.
https://github.com/snakers4/silero-models

Есть 2 GUI:
Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero
Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks

Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff

VITS-Umamusume-voice-synthesizer
Только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
Кажется можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Speech To Speech (STS) 🎤 👉 🎤

Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners
Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main

Утилиты для отделения вокала от инструменталки идут в комплекте.

Speech To Text (STT) 🎤 👉 📝

Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

Прочее 🛠️
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer
Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video

Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS

Шаблон для переката: https://rentry.org/byv2s
Предыдущий тред: >>314948 (OP)

Аноним # OP 20/08/23 Вск 01:10:58 № 461506 2

Где взять последнюю версию RVC: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Аноним 20/08/23 Вск 01:23:29 № 461518 3

вкатился

Аноним 20/08/23 Вск 02:24:17 № 461551 4

Мэддисон - мы у[...].mp4 14297Кб, 960x540, 00:03:41

Спасибо анону в прошлом треде который подсказал как починить RVC. Сделал свой первый кавер, зацените.

Аноним 20/08/23 Вск 09:41:04 № 461662 5

Короче rvc явно лучше поет, но модель получается ужасная, не знаю почему.
Использую тот же датасет, но результат в 100 раз хуже чем в svc

Аноним 20/08/23 Вск 14:00:20 № 461792 6

>>461551
Мод для КР надо сделать с этим треком.

Аноним 20/08/23 Вск 16:48:06 № 461892 7

Почему нет нормального гайда, где объясняется, от чего зависит batch size и количество эпох? Или я слепой?

Аноним 20/08/23 Вск 17:26:05 № 461912 8

>>461892
ты тупой?
эпоха это один прогон всего твоего датасета
бач сайз это количество прогонов одновременно

Аноним 20/08/23 Вск 18:22:23 № 461958 9

Как соединить голоса RVC с ламой?

Аноним 20/08/23 Вск 19:06:49 № 461974 10

>>461958
Такое сделал https://github.com/atomlayer/llama_cute_voice_assistant

Аноним 20/08/23 Вск 19:25:07 № 461993 11

>>461892
Ставь максимально высокий батч-сайз (=на скольки файлах одновременно обучается нейронка), который позволит твоя видеокарта. Число эпох (=количество полных прогонов по твоему датасету) можешь делать настолько большое, насколько позволяет время. Эти сетки (CVS/RVC) не переобучаются, в отличии от той же SD. Просто в какой-то момент не будет никакой разницы между эпохами.

Аноним 20/08/23 Вск 20:23:03 № 462036 12

>>461974

Почему бы не приложить .bat/.sh файл который сам выполнит все это консольное установочное говно? Это дело пяти минут, зато каждый кто будет ставить твое дерьмо не будет тратить эти пять минут(или три часа, если он впервые это делает). А некоторые вообще дропнут нахуй, когда увидят твою инструкцию на тридцать шагов.

Аноним 20/08/23 Вск 21:59:42 № 462094 13

image.png 122Кб, 1875x613

>>461974

Не работает.

Аноним 20/08/23 Вск 22:23:09 № 462106 14

>>462094
Вроде такой проблемы у меня не было.
Тут только можно попробовать
pip install chardet

Аноним 20/08/23 Вск 23:07:52 № 462132 15

>>462106

Помогло.
Запустилось после плясок с бубном. Тебе стоило написать что надо имя персонажа в настройках указать, а то работать не будет.
Работает через пень-колоду, если честно. Во-первых - ты зачем-то родил полностью новый интерфейс вместо того чтобы сделать форк уже готового экстеншена к убабуге, при этом никаких настроек оббращения к апи я не увидел. Во-вторых, wake слово он понимает через раз(жутко бесит), русский язык не понимает вообще. В третьих - голос на выходе все равно без нужного выражения, почти никакой разницы с встроенным в убабугу силеро.

Аноним 20/08/23 Вск 23:13:08 № 462134 16

>>462132
>Во-вторых, wake слово он понимает через раз(жутко бесит)

Какое имя ты используешь. Если как-то японское, то может такое быть, используй ангйлиское.
Имя lisa, которое стояло у меня понимал почти всегда с первого раза.

>wake_words = ["lisa"]
Вот здесь можешь указать несколько wake_words, если твое имя он понимает всегда по разному.

>русский язык не понимает
Под русский да, надо еще отдельно допиливать, чтобы работало.

Аноним 21/08/23 Пнд 00:08:51 № 462202 17

>>462132
> голос на выходе все равно без нужного выражения
В теории выражение в silero можно частично делать с помощью тегов. Надо заставить с помощью какого-то промта ламу генерировать с тегами.

Аноним 21/08/23 Пнд 00:47:21 № 462236 18

>>462202
Эх, полумеры. Нужна нормальная мультимодалка с выводом голоса напрямую.

Аноним 21/08/23 Пнд 01:36:58 № 462262 19

Вчера вкатился, генерил на RVC.
Оригинал: https://www.youtube.com/watch?v=enwCyZvibZA

Аноним 21/08/23 Пнд 01:39:37 № 462266 20

>>462262
Смотрю, у меня в браузере видео не воспроизводится, чем вы сшиваете? Я делал:
ffmpeg -i zima_letov.png -i zima_letov.wav -c:a aac -b:a 320k zima_letov.mp4

Аноним 21/08/23 Пнд 02:32:23 № 462292 21

Алсо, спасибо Сенкофагу за вдохновение попробовать RVC, это оказалось куда проще, чем я думал.
В замечательное время живём.

Аноним 21/08/23 Пнд 02:34:06 № 462293 22

>>462292
Ну вот, теперь даже превью нет. Я явно что-то делаю не правильно.

Аноним 21/08/23 Пнд 02:35:08 № 462296 23

>>462266
Попробуй так:
ffmpeg -loop 1 -i image.png -i audio.wav -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Или через второй таб в этой штуке, но если через онлайн делать, там пара секунд тишины в конце добавится: https://huggingface.co/spaces/NeuroSenko/audio-processing-utils

Аноним 21/08/23 Пнд 02:56:11 № 462300 24

>>462296
Так ffmpeg ошибку выдает:
inflate returned error -3
Error while decoding stream #0:0: Generic error in an external library

Через сайт за 10 минут так и не сконвертил.

Попробую сконверить аудио отдельно и потом так:
ffmpeg -loop 1 -framerate 1 -i image.png -i audio.aac -map 0 -map 1:a -c:v libx264 -preset ultrafast -tune stillimage -vf fps=10,format=yuv420p -c:a copy -shortest output.mp4

Аноним 21/08/23 Пнд 02:57:21 № 462301 25

>>462300
Во, теперь норм вроде.

Аноним 21/08/23 Пнд 03:08:55 № 462305 26

emoji-in-distre[...].gif 3366Кб, 630x640

сенко скримить не умеет

Аноним 21/08/23 Пнд 03:59:34 № 462318 27

>>462292
>>462300
Шикарно вышло, анон. И почему я сам не догадался вокал из песен Аргонова попробовать ею переозвучить... Спасибо, что поделился.

Добро пожаловать в клуб.

Аноним 21/08/23 Пнд 04:05:09 № 462319 28

senkoelis.webm 14554Кб, 1024x1536, 00:03:47

Аноним 21/08/23 Пнд 12:58:40 № 462457 29

>>462318
Да, я поделал сначала несколько генераций и понял, что от качества голосовой дорожки зависит 80% результата, а у Аргонова же все исходники на гите лежат. Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.

Спасибо.

Аноним 21/08/23 Пнд 14:06:17 № 462504 30

>>461500 (OP)
Что для АМД(ЦП)даунов посоветуете? Кроме РКН конечно.

Аноним 21/08/23 Пнд 14:40:08 № 462532 31

ElevenLabs всё? У меня только получилось зарегаться (раньше не пускало даже через впн), а там генерация голоса уже платная. Нет лазеек, как с claude/gpt4 и прочими платными сетями?

Аноним 21/08/23 Пнд 14:50:39 № 462535 32

>>461993
На 2060 rtx какой батч сайз ставить? А чекпоинты как ставить в svc?

Аноним 21/08/23 Пнд 15:19:09 № 462544 33

>>462504
Силеро на процессоре работает даже лучше, чем на видеокарте, лол.
>>462532
>ElevenLabs всё?
Всё, уже месяца три как.
>>462535
>На 2060 rtx какой батч сайз ставить?
Берёшь и тестишь, кто знает, может у тебя там в фоне игра запущена, и врама осталось полгига?

Аноним 21/08/23 Пнд 15:23:36 № 462547 34

>>462544
А как вообще тренировка нейросети влияет на ресурс видеокарты?

Аноним 21/08/23 Пнд 15:28:05 № 462551 35

>>462547
Так же, как и любое другое использование. Хочешь вечной жизни своей картонке? Положи её в сейф в безводную и безкислородную атмосферу, авось 30 лет пролежит.

Аноним 21/08/23 Пнд 16:58:26 № 462588 36

image.png 7Кб, 955x82

Так и должно быть или я на не на видюхе генерю?

Аноним 21/08/23 Пнд 17:13:02 № 462596 37

>>462588
Проверяй на вкладке ГПУ, выбери куду.

Аноним 21/08/23 Пнд 17:14:14 № 462598 38

>>461551
модельку на мэда для RVC где можно скачать? был бы оч благодарен за ссыль

Аноним 21/08/23 Пнд 17:20:31 № 462600 39

image.png 6Кб, 404x103

>>462596
А почему в диспетчере не пишет тогда

Аноним 21/08/23 Пнд 17:21:51 № 462602 40

>>462600
Потому что оно считает 3D нагрузку, очевидно жи.

Аноним 21/08/23 Пнд 18:02:05 № 462629 41

Продолжаю извращаться над Аргоновым.
Оригинал: https://www.youtube.com/watch?v=kR4idheTafY
Модель neco-arc(aggressive)

Аноним 21/08/23 Пнд 19:14:07 № 462673 42

>>462598

https://discord .com/channels/1089076875999072296/1099149801054019604

Аноним 21/08/23 Пнд 19:30:35 № 462689 43

>>462673
сяпс!

Аноним 21/08/23 Пнд 20:57:10 № 462765 44

>>414384 →
Скачал всё и перезалил на хг. Ну и свою модельку туда же вкинул.
SVC (39 моделей): https://huggingface.co/NeuroSenko/svc-models/tree/main
RVC (152 модели): https://huggingface.co/NeuroSenko/rvc-models/tree/main

Аноним 21/08/23 Пнд 21:20:17 № 462779 45

Колаб STS - всё.

Аноним 21/08/23 Пнд 21:41:33 № 462799 46

>>462457
Поделишься ссылкой на репу с исходниками Аргонова? У меня оф. сайт не открывается и нагуглить не могу.

Аноним 21/08/23 Пнд 21:45:47 № 462802 47

>>462799
https://gitlab.com/complexnumbers/

Аноним 21/08/23 Пнд 21:47:54 № 462803 48

>>462802
Низкий поклон

Аноним 22/08/23 Втр 09:41:16 № 463128 49

>>462319
Шикарно. Тут на всей борде полтора анчоуса знают Елизарова. Скинул в тематический, авось оценят. Вкрации расскажите как делать такие шедевры.

Аноним 22/08/23 Втр 10:25:36 № 463159 50

Вы когда вырезаете звук из мультиков, фоновый шум чем убираете?

Аноним 22/08/23 Втр 11:11:43 № 463189 51

Там силеро выпустили новые модели v4 для русского. Только они хуже, лол.

Аноним 22/08/23 Втр 12:20:40 № 463221 52

Есть способ менять свой голос на тянский в реальном времени?

Аноним 22/08/23 Втр 12:32:09 № 463227 53

колхозный панк.mp4 6398Кб, 850x952, 00:03:34

продавец кошмар[...].mp4 7056Кб, 764x1080, 00:03:34

на горе стоит в[...].mp4 6755Кб, 640x904, 00:02:52

Аноним 22/08/23 Втр 12:40:39 № 463232 54

>>463221
> A fork of so-vits-svc with realtime support

Аноним 22/08/23 Втр 14:28:21 № 463304 55

>>462457
>качества голосовой дорожки зависит 80%
Это база. Поэтому свежеспизженные модели первым делом идут морфить голос комрада с выразительной речью.
Но у меня парадокс - самый чистый морф получился на шипящем мешапе.
>>463128
На ютубе разжовывают по промту RVC тред Елизарова?

Аноним 23/08/23 Срд 07:22:45 № 463977 56

Пытался научить rvc на голосе одного черта из одной игры, а получился neco ark с фильтрами ревебирации. Дайте совет как делать чтобы делать хорошо

Аноним 23/08/23 Срд 09:30:42 № 464009 57

>>463977
Хм, я подумал, может дело в том голос оригинального британского актера довольно высокий? Я впервые раз попробовал и ещё ничего не понимаю

Аноним 23/08/23 Срд 10:51:27 № 464044 58

>>464009
Ну повысь голос, там же можно

Аноним 23/08/23 Срд 19:52:04 № 464445 59

>>413975 →
>Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
>RVC модели⬇️
>RVC_Voice_1:

Анон, нихера не могу найти такого вообще. КАК ТАК-ТО?
Может у кого есть RVC Андрея Ярославцева, пацаны, поделитесь?

Аноним 23/08/23 Срд 20:01:49 № 464450 60

>>464445
Блин там короче не RVC походу...

Аноним 24/08/23 Чтв 04:54:23 № 464811 61

>>464445
Ищи просто "XpucT", тот канал будет в первой десятке выдачи.

Аноним 24/08/23 Чтв 05:30:16 № 464819 62

>>464009
Ух ебат, вроде бы с голосом ру локализации работает лучше, за исключением тянущихся гласных.
Что будет если накидать для обучения сразу 2 или даже 3 отдаленно похожих голоса? Получится что о среднее или результат будет прыгать от одного к другому?

Аноним 24/08/23 Чтв 11:20:49 № 464945 63

>>463304
Ну да, вот >>898413

Аноним 24/08/23 Чтв 16:03:00 № 465151 64

>>464811
Спасибо, так нашлось, но да там не RVC, ех...

Аноним 24/08/23 Чтв 22:56:47 № 465639 65

Мнеможнодоверит[...].mp4 448Кб, 1024x576, 00:00:10

блять ебать там текста в шапке вы ебанутые я поридж с свдг

Аноним 24/08/23 Чтв 23:10:20 № 465672 66

>>465639
Держи в курсе.

Аноним 25/08/23 Птн 15:11:26 № 466112 67

rmvpe

Аноним 25/08/23 Птн 16:13:29 № 466165 68

>>466112
А капы как вытягивал? RVC?

Аноним 25/08/23 Птн 17:15:43 № 466217 69

>>466165
>капы
Это чо? В гугле выдаёт только фонк.
Да, RVC.

Аноним 25/08/23 Птн 18:29:06 № 466259 70

>>466217
Акапеллы сокращёно, голос без музыки.

Аноним 25/08/23 Птн 18:38:08 № 466262 71

>>466259
Через увре.
Ультимейт вокал ремувер сокращёно

Аноним 25/08/23 Птн 22:32:20 № 466490 72

БЛЯТЬ, ЕБУЧИЕ НОРМИСЫ В КРАЙ АХУЕЛИ!
Это и есть тот самый пиздинг контента, на который жаловался анон?

https://youtu.be/T5-oLns1TY8?si=TvNK6B70wqsJI5oM

>>458453 →

Эта хуита даже не удосужилась название другое придумать, пиздец.
Главное, 14к просмотров за 8 дней на канале с 31 подписчиками, будто этот видос в какой-нибудь паблик ВПараше запостили.

Аноним 25/08/23 Птн 22:50:12 № 466495 73

>>466490
Пчел... В первый раз? Лепи вотермарку и без валидола не лезь в тикток.

Аноним 26/08/23 Суб 00:01:41 № 466544 74

>>466490
Тебе жалко что ли?

Аноним 26/08/23 Суб 00:04:09 № 466547 75

>>466544
Я это для анонов делал, а не для какого-нибудь школьника, который это зальёт на ютюб и закинет в свой говнопаблик.

Аноним 26/08/23 Суб 01:18:29 № 466633 76

>>466547
С тебя убыло? Ты говоришь сейчас как какой-нибудь говноправообладатель, который считает упущенную прибыль по чисслу скачиваний с пиратебея. А по факту тот еблан (я его нисколько не жалею, чувак просто пиздит работы без указания авторства а ты его пиаришь) просто немного расширил аудиторию твоей работы. Возможно даже амёбы из тиктока, посмотрев это, получат такой вау импульс, что он выбъет их из колеи потребление говна и даст сил начать создавать говно самим, а это уже кое какой, да плюс.

Аноним 26/08/23 Суб 04:12:24 № 466701 77

>>466633
Похуй, жаловаться на авторские права в интернете = бороться с ветряными мельницами.

Аноним 26/08/23 Суб 07:29:07 № 466751 78

>>466490
Вот поэтому когда я делаю контентич для двача, я обязательно ставлю на нем свою подпись и ссылку на себя, а такое стараюсь как модно быстрее залить, чтобы было легче блочить пидоров ворующих контент

Аноним 26/08/23 Суб 18:48:04 № 467180 79

>>461500 (OP)
Шапка говно, тред захвачен копролисом.

Аноним 26/08/23 Суб 19:15:43 № 467192 80

Рот ебал этих TTS. Делаю свой аналог Нейросамы и все готово кроме нормальной речи. Силеро не подходит потому что хочу идти на англоговорящую аудиторию, ибо на русском твиче одни нищеброды да и сама аудитория намного меньше.А на английском Силеро выдает полную содомию вместо речи.
MoeGoe и MoeTTS - какая-то дичь которую непонятно как запускать, что делать, как обучать и где у нее английский язык хоть в каком-то виде. Даже гугл не знает ничего кроме 3.5 респозиториев на гитхабе без толковых мануалов.
Туртоис - генерит хорошо но по 5 минут, для реалтайм стрима не годится ни в каком виде.
Барк - странный и все равно долгая генерация.

Что делать, анон? Может есть еще что-то кроме ажур клауда и елевенлабс?

Аноним 27/08/23 Вск 00:13:53 № 467485 81

>>467180
это ейка и лисяша

Аноним 27/08/23 Вск 01:26:42 № 467519 82

Делюсь своими результатами.
Нейронки поют всрато, но после допиливания в FL получается вполне терпимо.

https://youtu.be/I5TtXQ942Lk?si=9A23QOhLO30csrqJ

https://youtu.be/I8oL56LJdRQ?si=o-aishDMI3Ya5wQf

https://youtu.be/CxIRCvi9qcU?si=vwo6I1WnDXqGg2EH

Аноним 27/08/23 Вск 02:17:12 № 467542 83

>>466633
Ящитаю, если человек смотрит тикток, то ему уже не помочь.

Аноним 27/08/23 Вск 12:52:24 № 467700 84

>>467192
> Что делать, анон?
Пиздуй на завод.

Аноним 27/08/23 Вск 15:38:21 № 467822 85

Там завезли два примера от bark.cpp TTS (сам репозиторий всё ещё WIP), также обещают добавить voice-cloning.
https://github.com/PABannier/bark.cpp
В первом примере на фоне есть некая мелодия, вероятно использовали [music] токен как у оригинального барка.
Короче эта шняга из-за использования той самой библиотеки GGML должна будет работать почти в реал-тайме ибо оригинал с неквантованными моделями стандартного размера требует около ~10gb vram.

Аноним 27/08/23 Вск 20:37:33 № 468221 86

Аноны, а как вы боретесь с картавостью в русских песнях в SVC? Пользуюсь своими датасетами и на выходе постоянно плохо произносится буква Р в песнях, это можно как-то пофиксить?

Аноним 28/08/23 Пнд 13:55:22 № 468918 87

Аноним 28/08/23 Пнд 16:06:34 № 469024 88

Киньте тг с моделями

Аноним 28/08/23 Пнд 16:22:28 № 469030 89

Может есть модель без этих щелчков ебаных?

Аноним 28/08/23 Пнд 16:56:47 № 469060 90

>>468221
Да, обучать на датасете РУССКОГО некартавого голоса.

Аноним 28/08/23 Пнд 22:45:28 № 469458 91

>>469060
Я там в репозитории в обсуждение читал про это, что вся программа основана на английских фонемах. Поэтому, когда ты обучаешь модель в датасет другого языка будет получаться такой вот "акцент". Не в датасете дело. Возьми любую модель хоть с миллиардом часов обучения и попробуй изменить русскую речь и она всё равно будет картавить английскими фонемами. Да тембр голоса будет идеально похожий на цель, но произносимые звуки будут выдавать англичанина.

Аноним 28/08/23 Пнд 22:57:07 № 469486 92

>>469458
>>466112

Аноним 29/08/23 Втр 00:51:49 № 469683 93

Прочитал шапку и понял чуть меньше чем нихуя. Может у меня глаза пиздой обшиты, но подскажите такое:

1. Можно ли взять звуковой файл с начинкой текста, скормить его нейронке и на основе этого файла нс будет говорить этим голосом (озвучивать написанное). Это же про это тред?
2. Какова длительность файла? Написано что от 10 минут до часа, а что вы за образцы такие скармливаете? Аудиокниги?
3. И самое главное - например я начитаю 10 минут текста, что именно лучше скачать - чему лучше скормить? Идеально если это локальная история, без всяких там регистраций и смс. Есть что-то типа rope или stable defusion, только для голоса?

Аноним 29/08/23 Втр 03:33:09 № 469769 94

>>469683
Если говорить про русскоязычную речь, то положняк сейчас такой:

Для генерации голоса из текста (Text To Speech) лучше всего использовать Silero. Запустить его можно локально (Soundworks, смотри этот пост >>448810 → ), поиграться в онлайне без смс и регистраций ( https://huggingface.co/spaces/NeuroSenko/tts-silero тут сетка упадёт, если скормить ей больше нескольких сотен символов за раз; можно скачать этот фронт себе локально при желании), либо поиграться с их официальным ботом в телеге https://t.me/silero_voice_bot но там есть лимиты на бесплатном тарифе. Для Silero доступно несколько готовых русскоязычных моделей, но свои обучать нельзя.

Затем ты можешь поменять оригинальный голос на нужный тебе (Speech To Speech) при помощи SVC либо RVC. Эти системы позволяют тренировать свои голосовые модели. Вот тут тебе и пригодится образец нужного тебе голоса длительностью от 10 минут до часа.

RVC более новый, меньше косячит с произношением и модели там тренируются на порядок быстрее, советую глянуть в его сторону.

> что вы за образцы такие скармливаете? Аудиокниги?
В качестве датасета надо использовать примеры нужного тебе голоса с как можно меньшим числом сторонних звуков.

Аноним 29/08/23 Втр 04:21:45 № 469786 95

>>469024
Вот здесь глянь >>413975 →
Либо тут зеркало на хг >>462765

https://discord .gg/aihub
Насколько мне известно, в этом дискорд-комьюнити находится самое крупное структурированное хранилище моделей для SVC/RVC (канал voice-models). Там есть фильтры по нескольким категориям (например, можно искать аниме-персов и исключить неоригинальный дубляж) и работает поисковая строка. Для всех моделей сразу прикреплены примеры с результатами. На каких-то спикеров доступно сразу несколько вариантов моделей.

Аноним 29/08/23 Втр 09:19:07 № 469863 96

>>469486
И что? Как раз похоже как будто иностранец с акцентом произносит звуки русского языка. Особенно это отчетливо слышно на втором видео. Если ты этого не замечаешь, значит просто слишком долго с сэмплами возился.

Аноним 29/08/23 Втр 12:55:03 № 469989 97

>>469863
Короче мимо диванный специалист. Проблема в том, что базовые модели, поверх которых мы обучаем, все как одна английские (китайские, мб японские). Для обучение базовой модели с нуля нужен нормальный такой кластер, ну или хотя бы одна А100 на месяц погонять. Такие дела.

Аноним 29/08/23 Втр 13:55:07 № 470026 98

Сколько эпох лучше поставить для баланса качество/время обучения при наличии 15 минут семплов голоса и моей бомжатской 1060 на 6 гб?
Батч сайз равен 3, если больше то вылетает с нехваткой видеопамяти. Максимальное время ожидания часа 2-3.
Сколько вы вообще в среднем ставите эпох для svc?

Аноним 29/08/23 Втр 13:58:32 № 470029 99

Есть гайды на rvc? Как его установить вообще?

Аноним 29/08/23 Втр 14:05:00 № 470032 100

>>470029
1. Скачать https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC0813Nvidia.7z
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC0813AMD_Intel.7z если амуде или штеуд вместо видокарты
2. Распаковать
3. Запустить go-web.bat

Аноним 29/08/23 Втр 14:54:15 № 470055 101

Что эта за хуйня? Когда все будет готово, сколько еще ждать?

Аноним 29/08/23 Втр 14:57:29 № 470057 102

>>462596
Нет куды

Аноним 29/08/23 Втр 15:03:05 № 470062 103

>>470055
Это реалтайм замена голоса. Надо жать кнопку Infer, а не (Re)Start Voice Changer, если работаешь с файлом.

Аноним 29/08/23 Втр 15:11:12 № 470073 104

>>470057
Выбери куду.

Аноним 29/08/23 Втр 15:35:43 № 470103 105

>>469786
>СnacuTe XpucT'a
Нихуя не находит его

Аноним 29/08/23 Втр 15:58:19 № 470131 106

>>470103
>>470103
переименовали его в AINetSD Group

Аноним 29/08/23 Втр 16:37:41 № 470160 107

>>470131
Ебать он пафосный. Ему об этом писали? Пробовали опустить с небес на землю?

Аноним 29/08/23 Втр 20:49:49 № 470415 108

Что скажете о voice.ai, если мне нужен риал тайм? RVS лучше будет? Как они с русским языком дружат? Насколько сильно грузят комп?

Аноним 29/08/23 Втр 20:51:39 № 470418 109

>>470415
*RVC

Аноним 30/08/23 Срд 16:26:37 № 471329 110

Аноны подумываю использовать Silero в качестве читалки. В основном для tts есть ли в этом смысл? Интерфейс из шапки попробовал и сразу вопрос можно как-то подкручивать скорость речи? А то уже привык к довольно быстрому темпу гуглвойса

Аноним 30/08/23 Срд 18:57:30 № 471453 111

> An open source implementation of Microsoft's VALL-E X zero-shot TTS model.
https://github.com/Plachtaa/VALL-E-X
https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

Аноним 30/08/23 Срд 19:08:18 № 471462 112

>>471453
самое главное :
https://github.com/Plachtaa/VALL-E-X#%EF%B8%8F-hardware-and-inference-speed
> A GPU VRAM of 6GB is enough for running VALL-E X without offloading.

Аноним 30/08/23 Срд 20:11:52 № 471539 113

>>471453
>>471462
собственно как и любой другой ад зависимостей, эта херня не хочет работать.

Аноним 30/08/23 Срд 20:43:46 № 471561 114

изображение.png 31Кб, 985x362

>>461500 (OP)
В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
>>471453
Эм, фигачит весь голос в логу в файл размером в 23 килобайта?
https://vocaroo.com/19oTpoiXKtG3
Качество конечно не фонтан, но там в качестве исходника рандомный файл из сенкодб.

Ну и как всегда, в русский не могёт.

Аноним 30/08/23 Срд 20:44:11 № 471562 115

>>471561
>логу
лору конечно же. Или как назвать этот мини файл?

Аноним 30/08/23 Срд 20:59:16 № 471582 116

>>471562
для этого :
> For faster inference, please use “Make prompt” to get a .npz file as the encoded audio prompt, and use it by “Infer from prompt”
эдакий сид, получил хороший результат, сохраняешь и используешь повторно при инференсе.

Аноним 30/08/23 Срд 21:06:04 № 471593 117

>>471582
Да я понял для чего он. Прикол в том, что его достаточно.

Аноним 30/08/23 Срд 21:25:30 № 471620 118

изображение.png 35Кб, 1432x278

изображение.png 16Кб, 1408x156

>>471539
У меня другая ошибка, плюс торч как всегда установился процессорный, 3080Ti такая "Да да, иду я нахуй".

Аноним 30/08/23 Срд 21:34:25 № 471635 119

>>471620
ну тут пчел пообещал сделать .exe релиз, надеюсь это упростит установку.
https://github.com/Plachtaa/VALL-E-X/issues/48

Аноним 30/08/23 Срд 23:34:55 № 471810 120

>>469989
>>469863
Если в датасете нет твердой эр, то как модель сама её создаcт? Никак.

Аноним 31/08/23 Чтв 06:02:22 № 472004 121

Аноним 31/08/23 Чтв 09:55:05 № 472090 122

1693464896773.mp4 3462Кб, 720x480, 00:00:49

Аноним 31/08/23 Чтв 12:27:35 № 472173 123

>>471462
(мимокрокодил из Лламы)
Офигеть, 6 ГБ врам, у меня Stable Diffusion, BLIP и суммаризатор еще крутятся, скока там врама на все это надо, в таком случае!
А если SDXL, то уже 11+1+2+6=20 гигов минимум.
С SD 1.5 14 гигов минимум.
Понапридумывают, никаких тебе оптимизаций. =с
Так и сидим на силеро.

Аноним 31/08/23 Чтв 14:16:58 № 472255 124

>>461500 (OP)
мнение?
В чем она не права?

https://youtu.be/xfhPMKpPQng

Аноним 31/08/23 Чтв 14:35:30 № 472264 125

>>472255
Нарезаю этот видос на семплы и кидаю на тренировку.
В чём не прав?

Аноним 31/08/23 Чтв 14:41:00 № 472267 126

>>472264
>в мире больше не будет актеров озвучки, будет лишь параша которую будут крутить по кругу + тысяча скамеров ебущих тебя же
Во всем ты не прав. AI-пидоры это беспринципный кал, и против тебя скоро выйдет куча законов.
Можешь поиграться пока есть время.

Аноним 31/08/23 Чтв 14:49:20 № 472274 127

>>472267
>Законы
Пчел...

Аноним 31/08/23 Чтв 15:32:34 № 472320 128

>>472255
>сейчас можно подделать личность любого кто оставлял цифровые следы
Всё так. Соцсетебляди соснули. Мою личность не подделать, я аноним, у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО. Остальные пускай страдают, сами на себя компромата выложили.

Аноним 31/08/23 Чтв 15:38:16 № 472326 129

>>472320
>у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО
вот только такие чмохи-ничтожества и радуются с нейросетей

Аноним 31/08/23 Чтв 15:39:49 № 472330 130

Анон, есть ли способ подключить подписку elevenlabs через русские карты типа сбера или я сосу писю в этом случае?

Аноним 31/08/23 Чтв 16:07:18 № 472358 131

>>472326
Эм, я то разумист, и сразу знал, чем закончится вся эта катавасия со списыванием денег в банках по голосу и еблету. А остальные да, дауны, и будут страдать.
>>472330
Очевидно что нет, езжай из страны.

Аноним 31/08/23 Чтв 16:18:01 № 472367 132

>>472358
>разумист
ты хуисосист. Буквально пустое место которое ничто не может предложить обществу кроме пердежа, вот тебе и "похуй".

Аноним 31/08/23 Чтв 16:30:08 № 472371 133

Хуя у вас тут дебич-треды.

Плохо, что подделать личность? Ебать вы дауны, фальсификации сопровождали человечество всю его историю. Всерьез на такую хуйню только вы же и ведетесь. Проблема не в подделках личности, а в том, что вы на это ведетесь и сразу бегаете с факелами и вилами.
Нет цифрового следа, личность не подделать? Ебать вы дауны, вот это безопасность, небось еще в тайге живешь, скрывая тепловой след от спутников и не пользуясь интернетом? А, не, падажжи… Уже не работает.

Поржал с обеих точек зрения. Ради кала спорите, к сожалению.
Жить надо в реальности, а не в фантазиях. =)

Аноним 31/08/23 Чтв 17:11:03 № 472414 134

>>472367
>пук
Что сказать то хотел? Где надо, я делаю, в том числе и для двача. А ты никто и все твои деньги сопрут.
>>472371
>Уже не работает.
Бежать надо не быстрее медведя, а быстрее остальных даунов. Пока сливают данные всякой там еды, и у всех вокруг горят пердаки, я спокоен, я не заказывал еду. Пока сливают сканы паспортов очередного левого сервиса, я спокоен, я не даю никому сканы своего паспорта. И так далее.
Конечно, целевую атаку на меня можно совершить. Но я хотел бы посмотреть на ебало того, кто будет пыжиться ради моих пары сотен тысяч деревянных.
>Ради кала спорите, к сожалению.
Таки да.

Аноним 31/08/23 Чтв 18:01:55 № 472454 135

>>472414
Вариант с драконом и гномом мне ближе, но в общем-то да.

Аноним 31/08/23 Чтв 18:05:12 № 472457 136

Подскажите какую русскоязычную модель можно натренировать на собственный голос. Я нубас, но в шапке конкретно по этому инфы нет, только по тренировке для STS

Аноним 31/08/23 Чтв 18:27:11 № 472472 137

aivoice.webm 444Кб, 856x210, 00:00:23

Аноним 31/08/23 Чтв 18:51:52 № 472492 138

>>472457
Свою модель обучай, собери датасет своего голоса и тренеруй по гайду.

Аноним 31/08/23 Чтв 19:23:40 № 472550 139

>>472492
Какую конкретно? Или они все файнтюнятся на своем голосе?

Аноним 31/08/23 Чтв 19:28:42 № 472561 140

>>472550
Что какую? Ты тренируешь СВОЮ модель, используя такие решения как RVC и SVC. Потом, ты можешь использовать натренированую модель на любом аудиофайле или в реалтайме.

Аноним 31/08/23 Чтв 19:38:43 № 472589 141

>>472550
>Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.
Вот же в шапке написано, просто собираешь датасет своего ЧИСТОГО голоса, режешь его аудио слайсером
https://github.com/flutydeer/audio-slicer
И дальше делаешь всё по гайду.

Аноним 31/08/23 Чтв 19:43:09 № 472604 142

нейрокал.webm 803Кб, 832x256, 00:00:44

Аноним 31/08/23 Чтв 19:45:49 № 472610 143

>>472589
Так, я дурачок и не пояснил что именно я хотел. В общем мне нужен TTS, а не STS. Хотя можно, по сути закостылить так: любой TTS -> STS на нужный голос в принципе

Аноним 31/08/23 Чтв 19:51:14 № 472619 144

>>472610
>>472604
То есть ты хочешь также как на видриле? Тогда план такой: Делаешь tts в silero, обучаешь модель на датасете своего голоса в rvc или svc и потом генерируешь файл на основе уже полученного tts результата.

Аноним 31/08/23 Чтв 19:56:55 № 472630 145

>>472619
Да, я собсна так и подумал, спасибо. Просто странно что нет возможности просто обучить TTS на своем голосе, как например в елевен лабс

Аноним 31/08/23 Чтв 22:53:59 № 472846 146

>>471453
чот как то так. https://voca.ro/1gGxZdrndZk3

Аноним 31/08/23 Чтв 23:04:55 № 472858 147

>>472846
https://voca.ro/1mp8rbss8aUv

Аноним 01/09/23 Птн 01:52:11 № 473166 148

>>472846
Бывает глотает слоги, а так норм.

Аноним 01/09/23 Птн 11:32:25 № 473396 149

Я хочу бесплатно слушать большие тексты (статьи хотя бы), не важно каким голосом, главное чтоб интонации были правильней.
Какие есть варианты для английского, для русского?

Аноним 01/09/23 Птн 12:22:11 № 473416 150

>>473396
подкасты слущай

Аноним 01/09/23 Птн 12:29:09 № 473421 151

SVC и RVC так же хороши в преобразовании речи, как и в преобразовании пения? Расскажите про взаимосвязь качества, если есть только речь и наоборот - только пение.

Аноним 01/09/23 Птн 12:29:49 № 473423 152

>>473396
Запусти Edge, нажми пкм по тексту. Безупречно будет читать.

Аноним 01/09/23 Птн 12:44:53 № 473432 153

Эту залупу кто-то пробовал? https://github.com/coqui-ai/TTS

Аноним 01/09/23 Птн 12:56:06 № 473441 154

>>473423
Спасибо!
>>473416
Слушаю.

Аноним 01/09/23 Птн 14:27:35 № 473486 155

Котаны, а есть уже войс ченжеры для дискорда?

Аноним 01/09/23 Птн 15:00:47 № 473506 156

https://youtu.be/ldP3w05Ab-U

Аноним 01/09/23 Птн 16:54:44 № 473568 157

>>473486
Я только по эту знаю, но на русском сильный акцент, но мб с норм видяхами будет лучше (у меня 1060 3гб). Скачать альфу можно у них в дискорде, в новостном канале ссылки.
https://themetavoice.xyz/#live

Аноним 01/09/23 Птн 17:01:08 № 473577 158

>>473421
Всё зависит от датасета, если сэмплы чистые, с большим диапазоном тембров, то любой результат(неважно пение или речь) выходит хорошим.

Аноним 01/09/23 Птн 18:26:53 № 473696 159

Посоны, как заставить Летова перестать шепелявить? Все "с" глотает нафиг. Речь о RVC

Аноним 01/09/23 Птн 18:44:04 № 473712 160

Аноним 02/09/23 Суб 03:46:57 № 474061 161

>>472255
В соседнем треде подробно расписали.
Коротко, во всем.

https://2ch.hk/ai/res/320984.html

Аноним 02/09/23 Суб 09:56:17 № 474122 162

Коллаб стал дропать сессию через 5-10 минут, у вас так же?
Прочил что у них в правилах стоит запрет на дипфейки

Аноним 02/09/23 Суб 15:02:51 № 474321 163

>>469769
>>469683
На английском звучит как говно роботизированное ваш силеро, я другим пользуюсь, на моей слабой видюхе (1050ti) куда лучше генерит.

Аноним 02/09/23 Суб 21:31:49 № 474618 164

>>471810
Так не только в "Р" дело, тем более в моем датасете джва часа бубнежа было и любых звуков достаточно. Суть в том, что база обучения нейронки на английских фонемах, сколько модель не учи всё равно будет походить на говор иностранца.

Аноним 02/09/23 Суб 21:34:40 № 474622 165

>>474061
Это школьник шизофреник с пораши, который своим высером все борды засрал, а сам при этом понятия не имеет что вообще такое нейросеть.

Аноним 03/09/23 Вск 23:09:15 № 475678 166

>>474618
Ну вот, я же то же самое сказал. Этого никак не избежать, она же звуки из датасета берёт.

Аноним 03/09/23 Вск 23:37:39 № 475702 167

Есть вариант как-то убрать эти щелчки? Очень бьет по ушам.

Аноним 04/09/23 Пнд 03:03:14 № 475809 168

Обучаю модель so-vits-svc. На одну эпоху на моей 3060ti уходит одна минута, при том что там всего 50 околопятисекундных аудиофайлов. Во вкладке производительность cuda вроде забита до завязки. В интернете нашел что у какого-то чела уходит 2 минуты на одну эпоху на 3060, при том что у него 1000 аудиофайлов. Чяднт? Может в конфиге наложал? Я там оставил все как есть только количество эпох уменьшил.

Аноним 04/09/23 Пнд 04:38:34 № 475821 169

>>472004
брат а где скачать RVC звуковую модель летова эту которую ты используешь?

Аноним 04/09/23 Пнд 05:36:31 № 475828 170

>>475821
https://huggingface.co/FourStringSamurai/EgorLetov250/resolve/main/EgorLetov250.zip

Аноним # OP 04/09/23 Пнд 06:09:18 № 475830 171

>>471561
> В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
Добавил в секцию "прочее". Осталось ката дождаться.

Надо будет ещё ссылок на загрузку SVC/RVC моделей добавить:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (как вариант, можно дополнительно упомянуть зеркало >>462765 )

Аноним 04/09/23 Пнд 13:13:05 № 476006 172

>>462629
Ясно. Сдвигаем твою позицию в очереди на воскрешение на пару миллиардов пунктов вниз.

Аноним 04/09/23 Пнд 20:56:41 № 476514 173

Есть текстовый гайд для альтернативно одарённых как натренить свою модельку?

Аноним 04/09/23 Пнд 21:14:39 № 476550 174

шмедисону читалку текста его голосом встроили прямо в старфилд. а вы говорите годных читалок нету

Аноним 05/09/23 Втр 01:16:44 № 476804 175

Да сука, я нихуя не понимаю. Тренил локально на своей пеке 2000 эпох целые сутки, получился пиздец, тренил в коллабе с меньшим лернинг рейтом столько же получил аудиорил (Абу гнида ни вемб ни мп4 не прикладываются) вот короче https://files.catbox.moe/bk6ro5.wav. У чела за 800 эпох получилась лучшая модель, да какого хуя? Нет, серьезно кто тренил подскажите

Аноним 05/09/23 Втр 04:00:16 № 476860 176

делал все по гайду с готовой моделью. получил такую ошибку в веб версии последней RVC при попытке обработать wav файл с вокалом

File "C:\RVC0813AMD_Intel\runtime\lib\site-packages\gradio\processing_utils.py", line 219, in convert_to_16_bit_wav
if data.dtype in [np.float64, np.float32, np.float16]:
AttributeError: 'NoneType' object has no attribute 'dtype'

куда копать? видюхи нет думал сделать на intel проце

Аноним 05/09/23 Втр 05:26:12 № 476874 177

>>476804
Перетрейн жи.

Аноним 05/09/23 Втр 12:58:35 № 477048 178

>>476874
Да как? Оно такое и на 200 эпохах и на 800 эпохах, я весь путь тестил.

Аноним 05/09/23 Втр 16:04:08 № 477226 179

Пацаны, я понимаю, что надо читать шапку, но все же по фасту спрошу - я хочу высказать очень непопулярное мнение на ютаб и боюсь деанона по голосу, чем мне лучше переделать голос, чтоб меня нельзя было задетектить? Заранее спасибо

Аноним 05/09/23 Втр 16:33:29 № 477261 180

>>477226
Сделай запись и через RVC поменяй голос в дорожке.

Качаешь ПО: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Затем любую понравившуюся модель где-нибудь здесь:
https://discord .gg/aihub (канал voice-models)
https://huggingface.co/juuxn/RVCModels/tree/main
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main )

Аноним 05/09/23 Втр 20:58:14 № 477691 181

Славик титан од[...].webm 13061Кб, 720x1280, 00:01:55

>>461500 (OP)

Аноним 05/09/23 Втр 21:00:19 № 477700 182

Славик =ТЕРПИТ=.webm 11543Кб, 960x1280, 00:02:19

>>461500 (OP)

Аноним 06/09/23 Срд 16:47:38 № 478645 183

Аноним 07/09/23 Чтв 04:13:05 № 479566 184

>>475702

Аноним 07/09/23 Чтв 13:48:33 № 479975 185

Посоветуйте TTS альтернативу Silero, с приемлемым качеством и возможностью запуска на своей машине (я за раз 50к - 100к символов генерю, регаться по 10 раз на сервисах заебна). Silero проглатывает английские термины, а у меня их дохуя, смысл треряеся.

Аноним 07/09/23 Чтв 14:25:41 № 480016 186

>>479975
Присоединяюсь к реквесту. Что сейчас актуально для локального TTS? Желательно еще гайд или описание нюансов установки если они есть.

Аноним 07/09/23 Чтв 14:38:33 № 480028 187

>>480013 →
>>461500 (OP)
вот тут смотри все

Аноним 07/09/23 Чтв 16:54:15 № 480089 188

don li volga.mp4 759Кб, 400x600, 00:00:11

Аноним 07/09/23 Чтв 20:17:30 № 480323 189

Можете пожалуйста озвучить фразу "diss mode activation" каким нибудь негрореперским голосом

Аноним 07/09/23 Чтв 20:17:30 № 480324 190

>>480089
ЭТО КАХ?

Аноним 07/09/23 Чтв 20:43:47 № 480367 191

>>480324
https://www.suno.ai. Вчера вышла. Вроде 25 генераций можно всего сделать бесплатно.

Аноним 08/09/23 Птн 12:44:42 № 480915 192

>>479566
Как

Аноним 08/09/23 Птн 13:25:26 № 480950 193

>>480367
В сочетании с rvc можно нагенерить лулзов. Только rvc отвалился. Сегодня впервые решился затестить, но слегка опоздал, гугл блочит.
Киньте рабочий колаб на svc/rvc, если знаете. Еще и сд колаб вчера отвалился.

Аноним 08/09/23 Птн 16:10:06 № 481080 194

>>480950
На машине генерь.

Аноним 08/09/23 Птн 17:19:59 № 481180 195

>>479566
Будущее прекрасно.

Аноним 08/09/23 Птн 18:45:54 № 481287 196

>>481080
Купишь мне её, умник?

Аноним 08/09/23 Птн 19:46:16 № 481396 197

Кто может подсказать, уже всю голову себе изломал. Есть на ютубе канал НейроШрек, мульт который нейросеть генерит, ну там в основном всякий однообразный бред, но как там реализована озвучка? Мало того что она хуярит круглые сутки, так еще и персонажи видно говорят голосами прототипами своих героев. Если кто сможет подсказать что там используется для озвучки это будет прекрасно!!!

Аноним 08/09/23 Птн 20:53:15 № 481504 198

>>481287
Сам купи, это не сложно.

Аноним 09/09/23 Суб 01:41:38 № 481774 199

Походу пчела перешла с твинков на девинарте к твинкам в тиктоке. Только за 15 минут наткнулся на 6~7 нейросенко акков фулл забитые одинаковыми каверами, часть спизжено отсюда

Аноним 09/09/23 Суб 06:08:08 № 481875 200

>>471539
Зачем ты запускаешь на ос для игр?

Аноним 09/09/23 Суб 14:17:22 № 482154 201

https://github.com/w-okada/voice-changer/blob/master/README_en.md
Просто оставлю это тут

Аноним 09/09/23 Суб 16:08:05 № 482238 202

>>480915

Аноним 09/09/23 Суб 16:18:34 № 482254 203

Google Переводч[...].mp4 7700Кб, 1920x1032, 00:00:06

>>482154
Оно почти всегда такое непохожее, или только в реалтайме, или мне попалась плохая модель (попробовал несколько разных)?

Аноним 09/09/23 Суб 17:07:40 № 482310 204

>>482254
Хуй знает, я его на свой войс накладывал. В дискорде работает, над только настроить. По крайней мере войс Соловьёва накладывается нормально. Но тут как бы есть несколько факторов, надо говорить членораздельно, нужно иметь нормальную модель голоса и иметь чуть чуть дикции. Накладывал войс тяночки, но из-за дерьмовых сурсов, нет адекватной модели, хотя школота в кс хавает.

Аноним 09/09/23 Суб 20:08:57 № 482678 205

А это что за нейронка?
https://youtu.be/MdM9qyh7Zhg?si=_n29vTL54unVqIIu

Аноним 09/09/23 Суб 21:29:01 № 482853 206

>>482824
>Что делать?
Ебать собак, очевидно же.

Аноним 09/09/23 Суб 21:42:18 № 482883 207

Какие системные требования у силеро? Нужно быстро в реальном времени синтезировать небольшие куски текстов.

Аноним 09/09/23 Суб 22:13:06 № 482960 208

>>482883
Кофеварка.

Аноним 09/09/23 Суб 23:32:51 № 483113 209

>>482678
похоже как раз таки на voice changer который я скидывал чуть выше

Аноним 10/09/23 Вск 06:03:24 № 483255 210

На Silero нельзя обучать голосу?

Аноним 10/09/23 Вск 08:25:48 № 483319 211

>>483255
Нельзя, точнее, код есть только из силеров.

Аноним 10/09/23 Вск 12:17:38 № 483508 212

>>483113
Он че, в прямом эфире может так струячить? Лол.
Осталось придумать нейронку, которая будут нормально чужие ебальники приклеивать. И можно будет творить креативы😄

Аноним 10/09/23 Вск 14:17:48 № 483589 213

Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись и как обучать тот голос что нужно мне? Вообще хотел бы услышать историю успеха от Сенко-анона.

Аноним 10/09/23 Вск 15:48:39 № 483683 214

>>483508
Там задержка в 0,5-1,5 секунд, так что считай что да

Аноним 10/09/23 Вск 23:42:53 № 484128 215

Где можно взять готовую модель на русском языке для этой проги?>>482154

Аноним 11/09/23 Пнд 06:43:22 № 484250 216

>>482238
Спасибо огромное.

Аноним 11/09/23 Пнд 10:12:42 № 484314 217

>>483589
> Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись
Советую в первую очередь глянуть RVC, ссылка на загрузку во втором посте треда, ничего дополнительно качать не надо - распаковываешь архив и запускаешь go-web.bat. Он меньше портит отдельные звуки в русской речи в сравнении с SVC.

Готовые RVC-модели можно скачать здесь:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (зеркало - https://huggingface.co/NeuroSenko/rvc-models/tree/main )
https://huggingface.co/juuxn/RVCModels/tree/main

> как обучать тот голос что нужно мне?
Тебе нужно собрать кусочки голоса с нужным спикером, длительностью, в идеале, от 10 до 60 минут. При этом записи должны быть разбиты на короткие файлы, каждый длиной не более десяти секунд. У меня датасет вышел на 69 минут суммарно.

Для политиков и прочих публичных деятелей датасет проще всего собрать - качаешь любой их длинный монолог и просто разбиваешь на короткие отрезки при помощи https://github.com/flutydeer/audio-slicer
Для вокалистов чуть сложнее - надо сперва убрать из всех озвученных ими песен инструментальную составляющую через https://github.com/Anjok07/ultimatevocalremovergui (UVR)

> Вообще хотел бы услышать историю успеха от Сенко-анона.
Предполагаю, что ты хочешь обучить голос на какого-то персонажа из аниме или т.п., раз решил меня напрямую спросить. Самое сложное, в этом случае, будет собрать датасет.

Во-первых, тебе придётся извлечь аудио-дорожку из каждой серии нужного тебе тайтла и удалить из неё все сторонние звуки.

Вырезать аудио из видео можно при помощи ffmpeg, я использовал такую команду:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Далее, при помощи UVR нужно убрать музыку и все сторонние звуки.

Дальше у тебя есть два варианта как нарезать всю серию на короткие отрывки именно с голосом твоего персонажа - один относительно быстрый, а другой не очень.

Быстрый способ - качаешь тулзу https://github.com/flutydeer/audio-slicer и прогоняешь дорожку тайтла через неё. В результате она тебе выдаст набор звуковых файлов, где есть какие-либо реплики. Дальше тебе надо прослушать и отфильтровать их так, чтобы в датасете остался только голос твоего персонажа. Из минусов данного подхода можно отметить то, что тулза не разбивает на отдельные треки отрывки, в которых персонажи перебивают друг-друга или между их репликами слишком маленькая пауза, так что тебе придётся либо исключить такие файлы из датасета, либо обрезать их вручную. Другой минус в том, что всякие визги и междометия будут пропускаться при дефолтных таймингах - надо либо тайминги подкручивать, либо смириться с тем, что часть звуков персонажа не попадёт в датасет.

Другой способ - ручное выделение всех реплик персонажа в Audacity, свой подход я описывал здесь >>353861 → Это займёт гораздо дольше времени, поскольку тебе, фактически, придётся весь тайтл вручную прослушать от начала и до конца (+ придётся мотать и ставить паузу, если не успеваешь выделять реплики в Audacity).

Какой-бы способ ты не выбрал, в конце у тебя будет набор коротких звуковых файлов, которые тебе надо вынести на уровень одной директории.

Дальше открываешь в RVC вкладку Train и задаёшь параметры тренировки
1. Target Sample rate - больше = лучше, ставишь 48k
2. Version - v2; первая и вторая версия использую разные базовые модели, я предполагаю, что это может сказываться на качестве. Насколько мне известно, все просто на v2 тренируют
3. Path of the train folder - нутыпонел, путь до папки с твоим датасетом
4. Total training epochs - я ставил 1000, но разницы в результате после пары сотен эпох уже не слышу. Однако, у меня не вышло переобучить эту модель, так что можно поставить значение повыше просто на всякий случай
5. Batch size - зависит от того, сколько влезет в твой GPU. Если у тебя 24GB VRAM, то просто ставь максимальное значение
6. Save only the latest '.ckpt' file - можно выставить в No, если боишься перееобучить модель, тогда можно будет глянуть младшие эпохи. Но лично мне показалось, что RVC и SVC невозможно переобучить - для того же SVC я обучал модель 40 часов на 4090, а для RVC 10 часов, и не похоже, чтобы такое длительное обучение как-либо негативно сказалось на качестве модели. Хотя, может это зависит от длительности датасета, batch size или других параметров, точно не знаю.

Дальше надо нажать кнопки по порядку как на скрине. Первые две операции займут буквально пару минут, а вот "Train model" займёт основную часть времени, так что "Train Feature Index" ты нажмёшь уже после завершения основного этапа тренировки. Есть ещё кнопка "One-click training", но она у меня не генерировала index-файл, так что советую всё же прокликать вручную на всякий. Хотя эта проблема описана в факе, там написано, что можно нажать "One Click Training" и затем "Train feature index", если он не сгенерировался. Но я не пробовал так делать.

Модель состоит либо из одного "pth" файла, либо из "pth + index" файлов. Модели с index-файлом должны работать лучше - в факе RVC расписано, что именно делает index-файл, но лично я из объяснения ничего не понял. Сами модели кидать сюда:
weights - pth-файлы
logs - index-файлы

Вроде всё расписал.

>>462457
> Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.
Спасибо, что расписал свой алгоритм действий, я про FabFilter Timeless вообще не знал.

Аноним 11/09/23 Пнд 10:42:09 № 484330 218

>>484314
Пасибо, Сенко-анон, ты шикарен.

>либо смириться с тем, что часть звуков персонажа
Ну да, нюансы у быстрого способа есть, с другой стороны, я эти звуки вчера выдёргивал из ВНки, хоть и навыдёргивал около 400 файликов, общая продолжительность там не шибко большая (дольше я сам проклинал япошек, что вообще все файлы с репликами идут просто по порядку их нумерации и более никак не определены, а там их 2.5к). А вот с тайтлом будут проблемы, в конце концов 24 серии + 5 полнометражек (одну можно исключить за неимением там нужного персонажа правда) придется колупать долго. Сколько ушло у тебя времени на семплирование голоса Сенки?

> 69 минут суммарно
Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?

> Какой-бы способ
Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?

Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?

Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?

Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.

Аноним 11/09/23 Пнд 10:50:34 № 484332 219

>>484314
Кстати, тут какие то модели есть и прочее, что лучше использовать и как настроить, чтоб опять же сразу и хорошо было?

Аноним 11/09/23 Пнд 12:09:55 № 484368 220

>>484332
Если нужна хорошая вокальная дорожка, то мне больше всего зашла Kim Vocal 2.
Если разбивать партию на отдельные инструменты, то Demucs v4 — htdemucs_6s.
Но один хуй потом в Audition косяки вручную нужно править.

Аноним 11/09/23 Пнд 15:28:59 № 484525 221

>>484368
Чето я нашел какой то гайд от какого то чела и обмазался им, там сразу несколько моделей используется.
Но получается не очень, т.к. появляются некоторые артефакты на полученной дорожке плюс долго, гнать многа серий тайтла - буквально заебёшься ждать. Идеальный конфиг для стирания лишних звуков из тайтлов все еще не ясен.

Аноним 11/09/23 Пнд 15:34:58 № 484532 222

>>484525
Плюсом появляется шум на готовой дорожке, который надо будет чистить руками во время нарезки сэмплов.

Аноним 11/09/23 Пнд 16:53:24 № 484619 223

Да как этот сраный RVC поставить?
Вот у них написано:
>The following commands need to be executed in the environment of Python version 3.8 or higher.
Я на 3.11 ставлю, какая-то из библиотек из указанного в requirements.txt не ставится, потому что требует, чтобы версия питона была не выше 3.11. Хорошо, специально с аура поставил себе версию 3.8, теперь дохуя библиотек не ставится, потому что требует питон 3.9 или выше.
Они хоть в своём ебучем readme могут актуальную информацию писать?

Я правда качал complete package для амуде, на который у них ссылка в релизах указана, сейчас попробую чисто через git собрать.

Аноним 11/09/23 Пнд 16:57:10 № 484624 224

>>484619
Та же залупа. Погромисты хуевы, ну теперь ещё себе 3.9 версию поставлю, чтобы всё пошло.

Аноним 11/09/23 Пнд 17:11:27 № 484649 225

.png 34Кб, 872x203

>>484624
>>484619
Вы чо угороете?
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Аноним 11/09/23 Пнд 17:21:13 № 484664 226

>>484649
Я тебе в первом своём посте и написал, что скачал это ебаный пакет.

Аноним 11/09/23 Пнд 17:26:47 № 484678 227

>>484664
Да? Ну в глаза ебусь значит. 3 часа сна дело такое...

Аноним 11/09/23 Пнд 17:33:18 № 484696 228

А можно ли мержить несколько моделей, чтобы получить новый голос или использовать полученные модели в программах типа Synthesizer V?

>>484314
Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?

Аноним 11/09/23 Пнд 17:47:28 № 484744 229

656565656566565[...].webm 7633Кб, 854x480, 00:02:44

Аноним 11/09/23 Пнд 17:47:59 № 484746 230

.png 35Кб, 554x124

Вроде с питоном 3.9 дело пока идёт, только вот один пакет не ставится, потому что он только под WSL и винду есть... Посмотрим как пойдёт.
Это мем, кстати, такой или он реально CPU юзать вместо амуде будет? Нахуй я эту версию тогда ставил?

Аноним 11/09/23 Пнд 17:53:13 № 484767 231

>>484696
> Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?
Никакой текст с расшифровкой не нужен. Для датасета тебе нужен только голос.

Аноним 11/09/23 Пнд 18:03:08 № 484775 232

>>484746
Видюху оно похоже мне не юзает... Нахуй так жить?

Аноним 11/09/23 Пнд 18:16:27 № 484789 233

>>484775
FUCKING KEK
>что мы пишем в readme
>AMD/Intel graphics cards acceleration supported.
>Что у нас в разделе Issues
>AMD is not supported at the moment
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/issues/1202
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/issues/272

Спасеба, китайцы.

Аноним 11/09/23 Пнд 18:23:32 № 484795 234

>>484775
>тыква вместо видеокарты
Да, нахуй так жить?

Аноним 11/09/23 Пнд 18:24:06 № 484796 235

>>484795
Ой, иди нахуй, любитель невидии.

Аноним 11/09/23 Пнд 18:25:47 № 484800 236

ЁБАНЫЙ ЗВУК ЦИКАД БЛЯДЬ НЕ ВЫЧИСТИЛСЯ ЕБАНЫЕ КИТАЙСКИЕ КУЗНЕЧИКИ БЛЯДЬ

Аноним 11/09/23 Пнд 18:48:02 № 484833 237

>>484744

Аноним 11/09/23 Пнд 18:48:37 № 484834 238

>>484796
УМВР, в отличии от.

Аноним 11/09/23 Пнд 19:19:03 № 484881 239

>>484833
Слава Богу что камнями завалило... Одним быдлом и убийцей меньше! Сколько он убил людей в этом фильме... Господь всемогущий.

Аноним 11/09/23 Пнд 19:26:18 № 484888 240

>>484744
>>484833
Как вы мимику подгоняете под аудиодорожку?

Аноним 11/09/23 Пнд 19:30:07 № 484894 241

>>484128
Найти скачать, затрейнить на RVC

Аноним 11/09/23 Пнд 19:30:12 № 484895 242

>>484888
Labs.heygen.com

Аноним 11/09/23 Пнд 19:32:53 № 484898 243

>>484833
Как сделол?

Аноним 11/09/23 Пнд 19:34:24 № 484900 244

>>484895
Спасиба.

Аноним 11/09/23 Пнд 20:41:38 № 484987 245

>>484833

Аноним 11/09/23 Пнд 20:49:56 № 484994 246

>>484894
А англоязычные модели не подходят для того, чтобы болтать на русском? То есть искать можно только то, что тренили на русской речи?

Аноним 11/09/23 Пнд 21:26:21 № 485055 247

>>484767
Найс;3
Ушел нарезать эпизоды аниме на реплики

Аноним 11/09/23 Пнд 21:39:24 № 485085 248

16189336491940 [...].mp4 5193Кб, 960x720, 00:00:41

>>484744

Аноним 11/09/23 Пнд 21:46:13 № 485090 249

>>484895
>>484987
>>484833
Охуеть. Доработать напильником и можно игры и фильмы оригинальным голосом переводить.

Аноним 11/09/23 Пнд 21:53:07 № 485106 250

image.png 17Кб, 438x117

>>484895
1. Оно только платное
2. Из РФ оплатить нельзя
3. За 50 баксов в месяц можно сделать не более чем 30 минут видео суммарно

Я ничего не упустил?

Аноним 11/09/23 Пнд 21:54:27 № 485108 251

>>485106
Да. Выводы?

Аноним 11/09/23 Пнд 22:06:45 № 485132 252

Окей, я скачал озвучку, а там .mka и 3 стереодорожки.. Их надо просто объединить по каналам и норм?

Аноним 12/09/23 Втр 02:51:10 № 485428 253

Аноним 12/09/23 Втр 13:08:03 № 485739 254

>>484744
С туалетным патриотом хуевато получилось

Аноним 12/09/23 Втр 13:29:21 № 485751 255

>>484987
Прямо сейчас вполне реально запилить голосом Гоблина пасту про Сталин-3000.

Аноним 12/09/23 Втр 14:37:16 № 485819 256

Как смотреть эти ваши лосы при обучении на графике?

Аноним 12/09/23 Втр 15:09:36 № 485890 257

Не знаю тот ли тред, балуюсь сейчас с реалтаймом, жрёт она обычные RVC, юзаю фор лулз, а именно тролю пиво в доте. Где брать модели? Желательно русские. Ну и за одно, есть ли способ уже готовую RVC модель как-то надрочить на свой голос, потому что риалтайм жрёт буквы, шепелявит, и тд.

Аноним 12/09/23 Втр 15:23:09 № 485904 258

>>461500 (OP)
Почему зеленого слоника до сих пор нет? Вы что охуели?

Аноним 12/09/23 Втр 15:32:54 № 485917 259

>>485819
TensorBoard
https://civitai.com/articles/83/using-tensorboard-to-analyze-training-data-and-create-better-models

Аноним 12/09/23 Втр 15:42:37 № 485931 260

>>485917
Пасибо.

Аноним 12/09/23 Втр 15:51:22 № 485939 261

>>461500 (OP)
Реквестирую буйного
https://www.youtube.com/watch?v=WnhjDV5ZUL0&ab_channel=SlavikZapiliSoloviev

Аноним 12/09/23 Втр 15:53:42 № 485946 262

Что эта пидорасина от меня хочет?

Аноним 12/09/23 Втр 15:55:44 № 485953 263

>>485946
Перемести UVR в папку, где в пути нет русских символов

Аноним 12/09/23 Втр 15:58:07 № 485959 264

>>485946
Юникоду больше 30 лет, а программисты-пидарасы до сих пор обсираются с любых символов, отличных от латиницы.

Аноним 12/09/23 Втр 15:58:26 № 485961 265

>>485953
Спасибо, помогло.

Аноним 12/09/23 Втр 16:02:50 № 485970 266

Кто тут может расшифровать?

Аноним 12/09/23 Втр 17:27:27 № 486134 267

>>486076
Хз сможешь ли индекс-файл сформировать после этого, хотя не должно быть проблем наверное.

Аноним 12/09/23 Втр 17:34:16 № 486145 268

>>485970
Это so-vits ? У меня при тренировке loss/d/total и другие пидорасит туда-сюда ебаным ежом, хотя у большинства я вижу, что они плавно опускаются. Где я обосрался и важно ли это ?

Аноним 12/09/23 Втр 17:45:24 № 486169 269

>>486145
Не, это RVC. А в градио просто Smoothing включено, чтоб сглаживало.
>и важно ли это ?
А хз че там и как прально оно интерпретируется, я просто на график смотрю и вроде как главное чтобы пониже и по ровнее.

Аноним 12/09/23 Втр 19:06:09 № 486250 270

Посоветуйте софт, чтоб с выражением и без багов зачитывал длинные технические и новостные статьи. Если есть приложение или возможность встроить движок в android, то вообще отлично

Аноним 12/09/23 Втр 21:37:52 № 486402 271

Аноним 12/09/23 Втр 21:40:04 № 486403 272

Что будет, если я замержу модели с озвучкой на разных языках?

Аноним 12/09/23 Втр 22:25:53 № 486436 273

>>482154
>>482254
>>484128
Мужики это по вашей тематике гайд? В микрофоне за косарь можно хотя бы в тг голосовые голосом тяночки записывать?

https://youtu.be/Q7bbEC4aeKM?si=NDUATBLIxJqkqqvU

Аноним 13/09/23 Срд 00:02:05 № 486522 274

Есть смысл запускать на локалке этот риалтайм модулятор голоса, если только 2гб врам? Пробовал уже кто-то? Тестанул на колабе, но не пробовал в войсе, вдруг оно не будет выводить поток в дискорд/игры.

Аноним 13/09/23 Срд 00:16:51 № 486541 275

>>486522
на 6 гигах нет смысла

Аноним 13/09/23 Срд 03:55:11 № 486684 276

Пиздаускас чот

Аноним 13/09/23 Срд 04:39:31 № 486703 277

>>486436
Тролю пиво в доте, в текущих реалиях всё сильно зависит от твоего изначального голоса и модели. С моим голосом и тянской моделью, а я пробовал дохуя, алинарин, диспимяу, клава кока, ева элфи, эвелинушка, оляша, и тд думают что я либо школьник, причем такой знаешь, с эффектом Богданчика валакаса, либо всё таки тянучка.

Аноним 13/09/23 Срд 06:33:04 № 486743 278

Можете кто-нибудь речь майора Монтаны про войну переговорить голосом Охлобыстина?

Аноним 13/09/23 Срд 09:11:38 № 486800 279

Хмм, ну получилось как то так. Больше того с эхом пердолился.

Аноним 13/09/23 Срд 09:26:32 № 486802 280

>>486800
Ебало этого шиза сгенерировали? Сейчас ведь еще и в /б унесет и в тикток зальет.

Аноним 13/09/23 Срд 09:28:30 № 486803 281

>>486802
> Сейчас ведь еще и в /б унесет и в тикток зальет.
Ты ебанутый?

Аноним 13/09/23 Срд 09:50:53 № 486812 282

Аноним 13/09/23 Срд 11:11:42 № 486873 283

аноны, я ньюфаг, как свой нейро-войсбанк натренить чтоб нейрокаверы делать

Аноним 13/09/23 Срд 14:21:17 № 487050 284

>>486983
Ты на голосовухах своего отчима что ли обучал?

Аноним 13/09/23 Срд 15:00:51 № 487085 285

bark (1).mp4 175Кб, 1000x200, 00:00:15

>Okay, I see. [fart burp] There will be no peace treaty... [laughs] until I finish this song [hysteric laughter] [halts] [whistles a song]

Аноним 13/09/23 Срд 16:26:46 № 487211 286

У меня на 100ой эпохе выпало в синий экран. Как дотренировать модель?

Аноним 13/09/23 Срд 17:16:43 № 487298 287

Аноним 13/09/23 Срд 18:02:09 № 487388 288

Аноним 13/09/23 Срд 18:04:55 № 487395 289

Этот сруля и сюда добрался...

Аноним 13/09/23 Срд 18:06:00 № 487397 290

>>487395
О себе в третьем лице.

Аноним 13/09/23 Срд 18:06:41 № 487399 291

>>487395
Зачем же ты сюда добрался, сруля?

Аноним 13/09/23 Срд 18:41:10 № 487457 292

>>487388
На каком картавом пятикласснике ты это тренировал?

Аноним 13/09/23 Срд 18:58:38 № 487485 293

>>487457
Голос Аски из GOS2, какой то дрочильни мибильной + из тайтла и ЕоЕ.

Аноним 13/09/23 Срд 19:23:21 № 487512 294

>>487485
Они оба японские?

Аноним 13/09/23 Срд 19:24:51 № 487516 295

>>487512
Да, всё японское.

Аноним 13/09/23 Срд 19:29:57 № 487523 296

Подскажите нубу какой лучший разделить вокала и минуса

Аноним 13/09/23 Срд 21:35:07 № 487692 297

>>487523
UVR

Аноним 13/09/23 Срд 21:37:16 № 487696 298

>>487692
А с каким режимом\моделью?
мимоанон

Аноним 13/09/23 Срд 21:56:24 № 487730 299

Аноним 13/09/23 Срд 22:04:41 № 487748 300

.png 20Кб, 664x196

>>487696
Попробуй так

Аноним 13/09/23 Срд 22:24:40 № 487778 301

>>487748
Попробую. А где взять модели справа? У меня в менюшке их нет

Аноним 13/09/23 Срд 22:29:50 № 487786 302

>>487778
В настройках там центр загрузок

Аноним 13/09/23 Срд 22:53:33 № 487807 303

Аноним 13/09/23 Срд 23:21:27 № 487829 304

>>487786
О, спасибо;3

Аноним 14/09/23 Чтв 10:46:44 № 488112 305

>>487211
Насколько я помню, если вводишь тот же самый "experiment name" во вкладке Train, он будет дотренировывать последнюю сохранённую эпоху, а не начинать всё по новой. Хотя я может с SVC путаю, надо тестить.

Аноним 14/09/23 Чтв 13:34:32 № 488231 306

>>488112
Спасиб, пока решил заново начать тренить расширив датасет.
Алсо могу посоветовать Davinci Studio для дополнительной очистки голоса от шумов, там свой нейронный движок.

Аноним 14/09/23 Чтв 15:21:59 № 488328 307

>>485939
бамп

Аноним 14/09/23 Чтв 19:00:52 № 488501 308

1654970495233.mp4 4818Кб, 734x716, 00:02:44

>>431750 →
Been awhile huh?
> В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32
Версия ффмпега. У меня тоже на старой от 2020 года так работало, как то связано с фреймрейтом, чем больше - тем меньше бесполезных секунд будет добавлено в конце. Короче просто обнови версию локального ффмпега.
> правда оно срать temp файлами в корень проекта будет
Переделал короче чуть код, фреймрейт сбавил до 2, чтобы размер файла не был таким большим на выходе, ведь это же просто статическая картинка. Ну и плюёт теперь не в основную директорию проекта, а по соответствующим папкам out_audio, out_video, которые вообщем то стоит заранее создать. https://textbin.net/1bxz3nzn2z вообщем то только ванклик инсталлера-запускаллера не хватает, чтобы любой мог особо не запариваясь включить это дело сразу.

Бтв аноны, попробуйте кто то разделить эту песню на вокал и инструменталку https://files.catbox.moe/3xi1fd.flac я уже почти все модели в UVR перепробовал, но затяжные "няяя" как на 1:35 вообще не хотят отделяться.

Аноним 14/09/23 Чтв 22:31:17 № 488721 309

в какое-то поганое время мы живём, если так подумать

со временем нейросеть наверное заберёт большую часть чистой работы, люди почему-то про кодинги думают, на самом деле в первую очередь она заберёт не кодинг а скорее всего работу разных секретарей, юристов, экономистов, аналитиков, короче практически всю офисную работу, потом наверное придёт за кодерами, людям останется только самая грязная физическая работа т.к. это дешевле чем делать роботов, надеюсь я к тому времени выплачу ипотеку лол

пока же она просто забирает удовольствие от хобби, я например вокалом увлекаюсь, смотреть что может сетка, скажем так это убирает желание пытаться стать лучше, по-моему ещё хуже чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно

Аноним 14/09/23 Чтв 23:02:26 № 488758 310

>>488721
>короче практически всю офисную работу
Только выйграем! Человечество наконец перестанет получать деньги за просиживание жопы и начнё физически развиваться, избавим потомков от гена гемороя.
>людям останется только самая грязная физическая работа
Если человечество будет занято только грязной работой - мы быстро найдём способ как её обелить/избежать.
>пока же она просто забирает удовольствие от хобби
Это как? Мне как нравилось чем-то заниматься - так и нравиться, даже если это прямо пересекается с нейронками. Наоборот они даже подогревают интерес и стимулируют развиваться что-бы всё ещё выдавать результат качественнее их.
>я например вокалом увлекаюсь
Пруфы пример.
>так это убирает желание пытаться стать лучше
Ты лайкозависимый? Как одно к другому относиться?
Вот есть кузнецы/васяны ёпта да? И что-то заводы по штамповке ножей, например, не ломают им кайф от ковки каких-нибудь ножичков.
Прям как видрил...

Аноним 14/09/23 Чтв 23:53:45 № 488797 311

>>488721
>просто забирает удовольствие от хобби
каким образом?
>это убирает желание пытаться стать лучше
чел, как вот эту лору для сд объяснишь https://civitai.com/models/106609/sketch-anime-pose?modelVersionId=114508? Она помогает с понимание поз, разбивая все элементы тела на составные части и по итогу можешь активно развиваться
>чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно
Может стоит хоть иногда выходить дальше t2i? Неиронично, многие художники на своих же лорах рисуют арты и плюс могут дальше оттачивать навык
>короче практически всю офисную работу, потом наверное придёт за кодерами
за нми придут раньше, можно сказать уже сейчас пришли с чатгпт 4.
И да, виноваты не нейронки, а наше общество хоть оно и отражает нашу природу

Аноним 15/09/23 Птн 00:09:30 № 488803 312

>>488758

Аноним 15/09/23 Птн 00:15:53 № 488806 313

>>488721
>>488758
>>488797
Пиздуйте со своими обсуждениями в специализированные треды.

Аноним 15/09/23 Птн 00:23:47 № 488808 314

>>488806
>обсуждениями
на реддит что-ли? ибо тут нет таких

Аноним 15/09/23 Птн 00:34:14 № 488815 315

>>488806
опять шизовахтер проснулся

Аноним 15/09/23 Птн 00:42:22 № 488822 316

>>488808
В любой другой тред, тут полно шизотредов, типа >>2320 (OP) >>299474 (OP) >>320984 (OP) >>397388 (OP)
Или создайте свой.
>>488815
Шиз это тот, кто принёс шизу в аудиотред.

Аноним 15/09/23 Птн 01:25:35 № 488860 317

Где можно Пригожина опробывать?

Аноним 15/09/23 Птн 02:17:46 № 488886 318

>>488860
Думаю на кладбище самое оно, а что?

Аноним 15/09/23 Птн 04:02:53 № 488914 319

firefoxZzL1Q7RM[...].png 102Кб, 1376x944

Появился ещё один войсклонер, WIP, на данный момент поддерживает только инференс.
https://twitter.com/coqui_ai/status/1702369159550529863

зашёл такой потестить его на huggingface, и он тут же отвалился.
https://huggingface.co/spaces/coqui/xtts

Аноним 15/09/23 Птн 23:05:47 № 490050 320

>>488914
Работает как говно. У меня rvc в самый первый раз в разы лучше справился

Аноним 16/09/23 Суб 18:10:24 № 490763 321

А есть ли инфа как натренить свою модель или лору к чему то существующему? Просто хочу голос чела из игры сделать, но не знаю как тренить, а в шапке гайд не вижу.

Аноним 16/09/23 Суб 20:08:08 № 490890 322

Маршалла
Есть у кого модель Муцураева?

Аноним 17/09/23 Вск 00:55:39 № 491122 323

Когда там уже подгонят сервис по начитке книг? Читать времени нет, а столько бы всего хотелось, чего кожаные мешки не озвучивают.

Аноним 17/09/23 Вск 01:30:18 № 491130 324

>>491122
Литрес же, нет? А так сервис задушат копирайтом, надо покупать лицензии на озвучку

Аноним 17/09/23 Вск 17:07:22 № 491667 325

>>484314
обязательное условие разбивать на аудио на 10 секунд?

Аноним 17/09/23 Вск 18:09:54 № 491704 326

Аноним 17/09/23 Вск 18:28:36 № 491723 327

It's over?
Нищуки теперь в пролёте?

Аноним 17/09/23 Вск 18:35:37 № 491728 328

>>491723
>неделю уже как.

Аноним 17/09/23 Вск 19:43:24 № 491835 329

>>491728
На прошлых выходных не трогал, по будням не до этого, после работы нейромантить вообще не охота.
Что делать-то? На обходы есть смысл надеяться, или искать покупателя почки?

Аноним 17/09/23 Вск 19:47:13 № 491840 330

>>491835
За почку уже тупо видеокарточку не купишь, не говоря о остальном компе для вывоза этой самой видюхи.
Готовь бабкину квартиру.

Аноним 17/09/23 Вск 19:56:44 № 491851 331

>>461500 (OP)
Вчера пытался прикрутить Silero к силли таверне. Сегодня вспоминаю об этом, как о тягостном кошмарном сне. Что за маньяк разработчик, у которого хватает энтузиазма и энергии на то, чтобы размещать одни и те же примеры кода на множестве ресурсов, но при этом, по видимому, нет желания, чтобы все это могли применить на практике простые смертные. То же касается в принципе и silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство.
В итоге я смог-таки генерировать тексты по несколько десятков слов через файлик, в которые эти тексты надо каждый раз заносить. К силли таверне тоже вроде номинально подключил, но, во-первых, silero-api-server накачал английских файлов типа en_117.wav, во-вторых, хотя таверна их якобы видит, ни хрена не озвучивается.
Есть у кого-то из анонов опыт взаимодействия с этим кошмарным сновидением? Как в конце концов заставить silero-api-server взять русский голос и начать функционировать в таверне?

Аноним 18/09/23 Пнд 00:13:14 № 492222 332

>>491840
собирай на зеоне и ставь карту уровня 3060, зеон её затащит спокойно. Блок питания купишь голдовый и все, хули там собирать то?

Аноним 18/09/23 Пнд 10:23:34 № 492332 333

>>491723
Ебашь без градио, это тот ещё раковый интерфейс. В отличии от картинок аудио само по себе в калЛабе не запрещено.
>>491851
>silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство
Лол, это буквально так и есть, люди зарабатывают на интеграции своего говна.

Аноним 18/09/23 Пнд 12:39:54 № 492420 334

>>492332
Я заставил таки это говно работать. Если кому в дальнейшем поможет, там все через жопу:
1) надо вручную скачать файл v4_ru.pt или другой приглянувшийся отсюда: https://models.silero.ai/models/tts
2) переименовать его в model.pt и положить в корневую папку, но не silero_api_server (который выходит вообще не нужен), а SillyTavern-extras
3) запускаем в директории SillyTavern-extras server.py --enable-modules=silero-tts
4) тут же появляются файлы с русскими голосами и в таверне можно включить озвучку.

Аноним 18/09/23 Пнд 13:52:33 № 492477 335

>>492222
И нахер мне шило на мыло менять? Если брать - то уж хорошее.

Аноним 18/09/23 Пнд 13:53:48 № 492479 336

Судя по количеству ИИ каверов на ТыТрубе и этому треду, качество переделки озвучки в озвучку вполне неплохое, но вот качество озвучивания текста до сих пор оставляет желать лучшего по сравнению с тем же Elevenlabs полугодовалой давности. Тогда появляется закономерный вопрос: почему не использовать какой-нибудь edge-tts (https://edgetts.github.io/) для генерации хорошего "базового" семпла, а затем прогнать его через локальную переделку озвучки в озвучку (которая вроде как настолько быстрая, что делается в реалтайме)? Если кому не лень, может кто-нибудь сравнить озвучивание текста "Alright, how about this one? Why did the tomato turn red? Because it saw the salad dressing!" напрямую и переделку этого же текста, озвученного edge-tts (https://files.catbox.moe/vorktm.mp3)?

Аноним 18/09/23 Пнд 14:00:45 № 492493 337

>>492477
Хули ты тогда выебываешься? Если у тебя такая сборка, нахуй тебе еще чета?

Аноним 18/09/23 Пнд 14:28:49 № 492520 338

Пацаны есть опенсорсное решение с переводом голоса на другой язык + липсинг. Опробовал тестовый видос с работы в labs.heygen.com, результат охуенный, но цены пиздос.

Аноним 18/09/23 Пнд 22:13:53 № 493073 339

>>491667
Для RVC не нужно разбивать на отрезки по 10 секунд, я перепутал с SVC, где такое обязательно. RVC сам нарежет датасет на отрезки по 4 секунды: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/Instructions-and-tips-for-RVC-training#audio-split

Аноним 18/09/23 Пнд 22:51:52 № 493126 340

>>484330
> Сколько ушло у тебя времени на семплирование голоса Сенки?
Очень много, т.к. я понятия не имел, как эффективно нарезку делать и тот же audio-slicer не использовал. Пока со всем разобрался, нарезал семплы, и дважды прослушал весь датасет, ушло около ~12-15 часов на 12-серийник. Но сейчас я бы это уже гораздо быстрее сделал. Тогда я только первые пару серий часа три нарезал, так как не знал, как это делать эффективно.

> Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?
Я датасет кинул в плеер foobar2000, он показывает суммарную длительность всех треков в плейлисте.

> Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?
Ручками всё нарезал.

> Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?
RVC поддерживает любой формат аудио, который распознаётся ffmpeg:
> Since ffmpeg is used internally for reading audio, if the extension is supported by ffmpeg, it will be read automatically.

> Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?
Даже не знаю, я такие эксперименты проводить не пробовал с компиляцией нескольких спикеров в один датасет. Ну, японоязычная RVC модель букву Р выговаривает и каких-то прям явных косяков по акценту я не заметил, так что, как мне кажется, нет особого смысла миксовать https://vocaroo.com/11Qmpc6eMVaG

> Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.
RVC это более новая система; под SVC модели сейчас никто не тренирует по факту. Чтобы не быть голословным, прикреплю список с последними загруженными модели в комьюнити AI Hub в дискорде. За последние 10 часов загрузили 24 RVC v2 модели, а последняя SVC модель была загружена более месяца назад.

Какой же я слоу.

Аноним 19/09/23 Втр 08:48:38 № 493344 341

>>493126
>под SVC модели сейчас никто не тренирует по факту
Просто под RVC софт более вменяемый.

Аноним 19/09/23 Втр 11:54:18 № 493423 342

>>493126
Что это за сайт? Не смог найти даже цитируя неотхешированные названия моделей.

Аноним 19/09/23 Втр 13:35:55 № 493471 343

>>493423
Дискорд сервер AI Hub.
мимо

Аноним 19/09/23 Втр 16:50:18 № 493552 344

Привет анон, я в звуковых нейронках совсем щегол, треды ваши не читал. Мне в соседнем треде накидали гайдов для Mangio RVC.
Умоляю, подскажите, как фиксить no-feature-todo/no-f0-todo??? Звуковые файлы в wav, в зип архиве, лежат в папке datasets. Путь правильный указан, пробелов лишних нет, кириллицы нет. Дайте хоть какую-нибудь идею, как фиксить. Я уже совсем отчаялся.

Аноним 19/09/23 Втр 19:22:57 № 493790 345

1637996968538.png 23Кб, 1016x214

>>488501
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
Спасибо за фиксы. К сожалению, команда на конвертацию из картинки+аудио в видео работает неправильно на HF, поскольку там используется старый ffmpeg 5 версии. Там стоит Debian и я не нашёл какого-то простого варианта, как обновить ffmpeg до 6, чтобы исправить эту проблему. Так что эту комаду пришлось откатить. Надо по хорошему подобрать команду, которая и на ffmpeg 5 для Debian и на ffmpeg 6 для Windows будет срабатывать одинаково, но у меня пока не вышло с этим разобраться; всю платину с первой страницы гугла и SO перепробовал.

Все остальные фиксы принял. Так же добавил install.bat и start.bat скрипты для windows (которые через venv всё ставят, естественно), чтобы проще поднять локально было.

https://huggingface.co/spaces/NeuroSenko/tts-silero
Алсо добавил эти же install/start скрипты для tts-silero репы, вместе с фичей, что все сгенерированные файлы кладутся в отдельную директорию out_audio. Но там мне надо в первую очередь разобраться, почему другие модели, кроме стандартной русскоязычной, отказываются работать. Всё никак времени не могу на это выделить.

Аноним 19/09/23 Втр 20:35:26 № 493905 346

аноны, решил побаловаться тут sts на гугл коллабе,но он выдает вот такую вот ошибочку, как фиксить?

Аноним 19/09/23 Втр 21:00:38 № 493940 347

image.png 6Кб, 453x61

>>493905

Аноним 19/09/23 Втр 21:01:36 № 493943 348

Товарищи, я тут как дурачок задам тупой вопрос:

Есть что то лучше, чем silero? Что бы без танцев бубнами, в онлайне (или так же в телеграмме) можно было озвучивать текста или переозвучивать уже готовое?

Аноним 19/09/23 Втр 21:13:05 № 493963 349

>>493552
Так короче спасибо за неответы, я сам разобрался. Теперь вопрос, есть какой-то норм форк или чо угодно, чтобы мангио могла в текст ту спич, а не только в конвертацию аудио? Или тут Mangio никто не пользуется?

Аноним 19/09/23 Втр 21:17:05 № 493970 350

>>493940
Там спрашивается как фиксить это, используя try/except, то есть для написанного тобою кода, а тут уже, простите меня не мой код

Аноним 20/09/23 Срд 15:28:01 № 494574 351

>>461500 (OP)
https://youtu.be/dcP50p-I6BE
С помощью чего это создавалось?
Пиздец, для хуйдожников со стаблем дефьюжен куча ресурсов сущесвует, а для голосовухи хуй да нихуя.

Аноним 20/09/23 Срд 20:21:01 № 494868 352

Whisper работает, но видеокарта не загружена (наверное, поэтому очень медленно расшифровывает). Как можно подключить видеокарту к процессу? Или он только на ЦП может работать?

Аноним 20/09/23 Срд 21:01:32 № 494914 353

>>494868
Тебе нужно торчи переустановить на кудовские.

Аноним 21/09/23 Чтв 21:02:50 № 496026 354

>>494574
Неплохой канал, спасибо что доставил, анон, даже не ожидал что бразильские макаки из фавел такое умеют.

Аноним 22/09/23 Птн 04:28:32 № 496491 355

Чому ещё нет? Делаем песенки с помощью Suno AI, гуглите, там бот в дрискорде.

-пишем /chirp
-пишем нужный жанр
-придумываем/гуглим текст
-???
-ВСЁ

Аноним 22/09/23 Птн 06:47:36 № 496511 356

>>484895
Загрузил видос, смотрю, очередь 73 200. Думаю, ладно, завтра зайду. Сегодня захожу - 73 100. Получается очередь на два года. Охуенно

Аноним 22/09/23 Птн 12:03:24 № 496711 357

>>496491
Было и тут, и в аудио треде. Почему-то никого не интересует музыка. Сам удивлен. Оно еще и само текст через гпт-4 генерит, если лень придумывать рифмы (на английском).

Аноним 22/09/23 Птн 12:41:49 № 496736 358

Аноним 22/09/23 Птн 13:32:21 № 496788 359

>>496711
Спасибо. Давно хотел записать свой реп альбом.

Аноним 23/09/23 Суб 08:29:52 № 497752 360

Аноны, подскажите
Обучил модель RVC (mangio) v2 на 20 минутах аудиодорожек. Эпох поставил 1024. Часа 3 всё заняло и последние версии модели (от 1000 эпохи) получились не очень в отличии от 800-900. Делал по тупогайдам на форуме и ютубе. К сожалению, мало кто не использует колаб.
Вопрос: как дообучать модель? Видел, что нужно в Train просто написать то же название. Это так? И выбирать название какой-либо недотренированной нужно, если она звучит лучше?
Вопрос 2: в чем может быть причина того, что в 1000х эпочах хуже поёт, чем в 800-900?
И сколько стоит сохранений ставить, чтобы не получать 10000 файлов с промежуточными результатами?
я не шарю почти

Аноним 23/09/23 Суб 08:31:51 № 497753 361

>>484994
Будет не так хорошо, как на родном языке, так как в разных языках разные сочетания звуков. Также, например, чистый звук Ы отсутствует в английском

Аноним 23/09/23 Суб 08:36:46 № 497755 362

>>493963
Я пользуюсь. Но, видимо, никто не отвечает тут. А тред по RVC я не нашёл слепой
Накатал пост чуть выше с вопросами
> файлы в wav, в зип архиве, лежат в папке datasets
Ты файлы из прива вытащил просто? У меня эта проблема так фиксилась
> могла в текст ту спич
Оно разве не может в ТТС?

Аноним 23/09/23 Суб 14:10:30 № 497967 363

Кто знает какие нейронки юзает Ведал?

Аноним 23/09/23 Суб 17:00:47 № 498091 364

Не знал, что запилили русскоязычную модель для Tortoise
https://voca.ro/1eMIijF7Ad2l

Аноним 23/09/23 Суб 17:02:25 № 498093 365

>>498091
Ты ссылку на модель забыл.

Аноним 23/09/23 Суб 17:39:02 № 498130 366

>>498093
Вот же, уже 3 месяца лежит https://huggingface.co/SerCe/tortoise-tts-ruslan/tree/main/model
Если лоли голос с вокарушки интересует, то это я уже сверху пару книжек накатил поверх этой модели и еще датасет с детским голосом.
К сожалению Tortoise какого-то хуя пидорасит тональность, поэтому все равно приходится правитьpitch вручную.
https://gofile.io/d/4u0mIL

Аноним 23/09/23 Суб 18:09:07 № 498192 367

>>498130
>сверху пару книжек накатил поверх этой модели
>the model is suitable for further finetuning on any Russian male voice
Кек.

Аноним 23/09/23 Суб 18:35:05 № 498235 368

>>498192
> male
Поэтому и накатил пару книг с женскими голосами.
К тому же у меня они уже были нарезаны для тренировки, ибо я до этого уже пытался сам тренить на русский язык.

Аноним 23/09/23 Суб 18:47:12 № 498252 369

изображение.png 1Кб, 123x55

>>498235
И в итоге тренировка от кабанчика на большом (наверное, не смотрел) русском датасете + немного женского оказалась лучше, чем твои предыдущие попытки?
Кстати, залил бы модель на huggingface, а то все эти классные обменники дают классную скорость.

Аноним 23/09/23 Суб 21:58:31 № 498434 370

>>479975
>>480016
Попробуйте EdgeTTS

Аноним 23/09/23 Суб 23:25:45 № 498495 371

>>461500 (OP)
Аноны есть у кого опыт с STS. А именно с этим проектом

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Вот ссылка на репу https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Кто нибудь менял голоса с помощью него?

Вопрос какая видеокарта нужна? Также я сейчас не дома где компьютер и у меня нет видеокарты. Сколько дней нужно допустим если использовать ядра процессора? Я охуею? если дня два то ок.

Буду благодарен за ответы.

Аноним 24/09/23 Вск 10:32:32 № 498708 372

>>498495
там вроде нужна видюха в любом случае. с телефона только гугл каллаб в помощь

Аноним 24/09/23 Вск 11:23:06 № 498724 373

>>498252
У меня видяха слабая, так что я скармливал этой хуерге по тыще файлов в день на коллабе.
Очень медленный и малоэффективный процесс, так что я в итоге заебался и забил.
На тот момент было не так уж и плохо, но конечно хуже чем у кобанчика, да.
> залил бы модель на huggingface
Не получается, виснет часами на статусе заливки.
https://voca.ro/14ITAX3Tn2KH

Аноним 24/09/23 Вск 12:26:12 № 498744 374

Нейросеть кайф

Аноним 24/09/23 Вск 14:26:24 № 498790 375

>>498724
> Не получается, виснет часами на статусе заливки.
Через другой браузер попробуй залить. У меня такая же проблема была.

Аноним 24/09/23 Вск 15:45:54 № 498847 376

>>498724
>Не получается, виснет часами на статусе заливки.
Могу за тебя залить, у меня проблем с интернетом нет.

Аноним 24/09/23 Вск 15:51:20 № 498853 377

>>498790
Спасибо, в другом браузере залилось.
https://huggingface.co/prog1322/tortoise-Nastya/tree/main

Аноним 24/09/23 Вск 18:34:44 № 499025 378

>>484987
Анонче, озвучь эту пасту голосом гоблача плезки

The other day, on the advice of trusted comrades, I purchased a new mega-device - the Stalin-3000 anal plug. Immediately, choking with greed, he opened the box with his tenacious paws and used the megadevice. Size, my respects. Joseph Vissarionovich was a real lump. Even my ass, accustomed to the harsh everyday life of the army, refused to accept it from the first try. Together with Oleg Zotov, we resolved the problem. Feelings - ATAS. There is no comparison with a machine gun. In addition, the mustache tickles the prostate pleasantly. I went on like this all day. Decidedly ready to film new non-spirituality.
Many children will see manifestations of homosexuality here. Stupid children don’t realize that pederasty and patriotism are two different things.
The device is excellent, I recommend it to everyone to purchase.

Аноним 24/09/23 Вск 19:42:31 № 499082 379

>>498708
Nvidia Geforce GTX 1650 норм?

Аноним 24/09/23 Вск 21:10:25 № 499162 380

>>499025
>>488803

Аноним 24/09/23 Вск 22:38:37 № 499240 381

По поводу готовых моделей для RVC, у всех моделей 2 файла, pth и index, и если с pth всё понятно, кидаем в папку weights, то что за файл index? Куда его? Вроде и без него всё работает

Аноним 25/09/23 Пнд 01:39:39 № 499332 382

Аноны, может кто подсказать что за хуерга?
Пытался поставить витс по гайду
>Гайд: https://textbin.net/kfylbjdmz9
И, при попытке загрузить библиотеки, вылетает ошибка от cmake.
Пытался на анаконде делать, так и на отдельно установленном питоне - одна и та же ошибка.

пикрелейтед

Аноним 25/09/23 Пнд 02:23:44 № 499349 383

>>499240
В папке logs создаешь папку с именем модели и кидаешь туда index файл. Должно быть так, например:
/weights/gura.pth
/logs/gura/added_IVF338_Flat_nprobe_1.index

index-файл корректирует фонемы и акцент модели. Если у тебя на входе русскоязычное аудио, а модель англо/японоязычная, то использование index-файла сделает только хуже.

Аноним 25/09/23 Пнд 02:26:34 № 499351 384

>>499240
Index в logs/название_модели, чтобы автоматически подсасывало, можно просто указывать путь к файлу, если хочешь. С индексом врооооде как чуть лучше и быстрее, но чет хз. Мб тут найдутся знатоки которые расскажут зачем и для чего он на самом деле нужен

Аноним 25/09/23 Пнд 02:41:17 № 499359 385

>>499332
1. У тебя стоит python 3.11 под который ещё нет доброй части библиотек
2. Он пытается собрать какой-то пакет для питона из исходников (какой конкретно по твоим записям непонятно), но так как у тебя нет nmake (и в целом компилятора MSVC Build tools), то нихуя естественно не может.

Аноним 25/09/23 Пнд 09:49:42 № 499487 386

>>498708
>>498708
Nvidia Geforce GTX 1650 норм?

Аноним 25/09/23 Пнд 10:45:59 № 499532 387

>>488803
Спасибо, аноним
С меня Сталин-3000

Аноним 26/09/23 Втр 08:11:16 № 500714 388

>>461500 (OP)
Поделитесь опытом удаления шума в аудио файлах? Есть ряд записанных аудио почившего но глубоко любимого мною человека. Но есть шум. Хотелось бы удалить максимально весь шум. Есть такой инструмент как Adobe podacast beta https://podcast.adobe.com/

Так же есть бесплатный nvidia broadcast.

Оба инструмента великолепны поскольку используют нейронные сети. Они просто напрочь удаляют шум. Но первая платная а вторая как бы обрабатывается исходящий звук. Можно конечно обработать записанное аудио через виртуальный кабель.

Но по чесноку как вы лично избавляетесь от шума? Именно от не постоянного шума? Прошу поделиться опытом, если есть опенсорс проекты использующие нейронные сети для удаления шума я буду рад.

Также все же хотелось бы знать какие процессы обязательны в шумоудалении? То есть какие базовые процедуры нужнв? Нейросети это круто конечно но чтобы вы порекомендовали.

Аноним 26/09/23 Втр 08:40:37 № 500727 389

>>500714
обновление:
Adobe podcast все же бесплатен но хорошо работает с английской речью и ужасно справляется с русской и казахской речью((

Аноним 26/09/23 Втр 10:12:57 № 500758 390

>>500714
> Оба инструмента великолепны поскольку используют нейронные сети.
Нейрошиз, спок.

Аноним 26/09/23 Втр 15:40:22 № 500988 391

>>499487
если просто переделывать песни то да норм. а вот если обучать модели то 1 эпоха 20-30 минут будет. Обучать модели лучше онлайн

Аноним 26/09/23 Втр 15:45:57 № 500992 392

Ищу людей. Будем озвучивать пасты про говно голосом артаса.
Все будет просто. минут 10 времени.
Сначала текст озвучиваем через ттску а потом в рвс с моделью артаса прогоняем.

Аноним 26/09/23 Втр 17:30:52 № 501072 393

>>500992
Целого класса не хватило? Позови с параллельного.

Аноним 26/09/23 Втр 17:45:52 № 501089 394

>>501072
спасибо за совет. так и сделаю.

Аноним 26/09/23 Втр 18:00:02 № 501099 395

>>500714
Онлайн: https://vocalremover.org
Оффлайн: https://github.com/Anjok07/ultimatevocalremovergui

Оба выделяют дорожку с голосом в отдельный файл. Не уверен правда, как они работают с обычным шумом (их специализация - это выделение вокала из песен), можешь в онлайн-тулзе попробовать.

Аноним 26/09/23 Втр 23:30:55 № 501504 396

высшие-силы.mp4 1763Кб, 728x410, 00:01:07

Решил попробовать поиграться с нейросеточными голосами. Походу возник вопрос: как составить промт, чтобы речь звучала естественно и, желательно, красиво. Здесь есть специалисты?

Аноним 27/09/23 Срд 06:48:39 № 501712 397

>>501504
прогоняешь через рвс любой модели. или просто юзаешь sileroTTS

Аноним 27/09/23 Срд 09:08:38 № 501790 398

>>501099
неа тот софт с гитхаба не удаляет шумы, он убирает просто вокал из песни. Делает он это шикарно, но не с шумом.

Можно с аудасити удалить постоянные помехи, но вот локальные шумы не очень.

Для обладателей GTX есть от нвидиа мощный инструмент RTX Voice. Я удалил почти 95 % шумов но не все. Я пришел к выводу что все конечно не получится.

Но теперь встречный вопрос. Вот допустим я подготовил 10-15 минут вырезок с очищенным звуком. Теперь как подготовить датасет? Эти аудио годятся для данных?

Использование whisper который вырезает куосчки аудио где человек ращзговаривает невозможно. Пскольку виспер работает с английской речью.

Аноним 27/09/23 Срд 09:42:16 № 501820 399

>>501790
Whisper прекрасно распознает русский язык

Аноним 27/09/23 Срд 13:01:16 № 501979 400

Подскажите,как повысить тональность?

Аноним 27/09/23 Срд 15:02:07 № 502083 401

>>501820
а расскажи можно просто самостоятельно вырезать? то есть можно ли в аудасити убрать все паузы и потом вырезать непрерывные фразы? То есть я смотрел ютубера который говорил что виспер порой вырезает кусочки с артефактами.

Используется ли аиспер просто потому что нет времени самостоятельно вырезать? Так же расскажи как ты готовишь датасет. Насколько хорошие результаты ты получал?

Аноним 27/09/23 Срд 15:18:12 № 502105 402

>>501979
Auto predict F0 отключи и выкрути питч как тебе надо

Аноним 27/09/23 Срд 19:03:36 № 502266 403

Аноним 27/09/23 Срд 19:30:34 № 502288 404

>>502266
https://vocaroo.com/1ooTgvbgKynP

Аноним 27/09/23 Срд 20:31:30 № 502350 405

>>461500 (OP)
анон, как сделать голосовой дипфейк?

Аноним 27/09/23 Срд 21:16:38 № 502375 406

>>502350
Через RVC можешь поменять голос на нужный тебе, если найдёшь готовую модель на нужного тебе человека:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (зеркало - https://huggingface.co/NeuroSenko/rvc-models/tree/main )
https://huggingface.co/juuxn/RVCModels/tree/main

Если нет нужной модели, то придётся обучить самому.

Аноним 27/09/23 Срд 21:22:00 № 502382 407

>>502375
обучить нужно, да. это где?

Аноним 27/09/23 Срд 23:43:03 № 502475 408

>>484314
>>502382
вот гайд

Аноним 28/09/23 Чтв 00:11:54 № 502501 409

Хочу вкатиться в TTS, с клонированием своего голоса. Сейчас самые качественные, это ElevenLabs, Tortoise и Uberduck или уже есть что-то лучше?

Аноним 28/09/23 Чтв 01:54:53 № 502539 410

>>502375
Кстати знает кто как тренировать RVC без гуя ? Для инференса сделали хоть какой то костыльный скрипт, а тренить походу только в вебе

Аноним 28/09/23 Чтв 06:26:20 № 502586 411

>>502539
https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru?scriptVersionId=143284909
Вот. Сам этим пользуюсь. Вот гайд https://youtu.be/uA92FDw_Xfw

Аноним 28/09/23 Чтв 08:58:00 № 502630 412

>>502083
Я Whisper использую только для транскрипции в текст, обрезает он как мудак.
Режу через Audacity либо руками, либо через лэйблинг

Аноним 28/09/23 Чтв 11:54:37 № 502710 413

Я вот не пойму, я обучил голос нормально, но когда начинает петь по каверу, она словно глотает буквы и звуки некоторые. Как это фиксить? А то блять поет кашу временами какую то.

Аноним 28/09/23 Чтв 12:02:59 № 502713 414

Как натренировать модель на свой голос, чтобы потом вставить в таверну? Мне не для песен нужно.

Аноним 28/09/23 Чтв 14:17:45 № 502812 415

>>502710
Тестил с другими готовыми моделями? Надо сперва понять, проблема с твоей моделью или с настройками.

>>502713
Зачитывай вслух любой текст с википедии или ещё откуда-нибудь минут 15 и используй эту запись для обучения модели. Желательно только чтобы клики мышью и прочие сторонние звуки в запись не попадали.

Аноним 28/09/23 Чтв 15:42:37 № 502860 416

>>502812
Разобрался, это был хуевый вокал, использую другую версию для наризания и очистки звука но реверба, стало в разы лучше.
Но как пофиксить то, что во время пения, голос словно ломается.

Аноним 28/09/23 Чтв 16:04:35 № 502870 417

>>502860
использовать хорошие модели

Аноним 28/09/23 Чтв 16:10:21 № 502874 418

>>502870
Модели чего? Голоса? Если его, то голос - заебатый, по крайне мере, лучше всех тех, что на нее есть.

Аноним 28/09/23 Чтв 16:22:28 № 502889 419

>>502874
хмммм. тогда хз почему. А что за модель?

Аноним 28/09/23 Чтв 16:23:34 № 502890 420

>>502889
Лейн Ивакура.

Аноним 28/09/23 Чтв 16:24:46 № 502891 421

>>502860
Мало инфы даёшь, остаётся только угадывать. Pitch extraction algorithm выставил в crepe или rmpvpe? По умолчанию стоит pm, а это кал.

Может ещё голос ломать, если в датасете нет достаточно высоких/низких звуков для твоего трека. Попробуй высоту голоса поменять - transpose выстави на -12 или +12.

Аноним 28/09/23 Чтв 16:26:40 № 502893 422

>>502891
>rmpvpe+
Стоит. Спасибо, попробую с transpose поиграться.
А раз вы тут, а что делать, если модель начинает "реп" читать? Да, в оригинале не очень большие паузы между пением, но модель прям слово без остановки их поет, и получается каша.

Аноним 28/09/23 Чтв 16:28:08 № 502894 423

>>502893
А бля, я понял в чем проблема, в вокале...но я даже хуй знает как его еще чистить сука.

Аноним 28/09/23 Чтв 16:47:12 № 502904 424

>>502890
пипец.Там и так голос говный в сериале так еще и модель

Аноним 28/09/23 Чтв 16:49:51 № 502905 425

>>502904
Вот и говорю, это самый лучший...

Аноним 28/09/23 Чтв 18:27:45 № 502964 426

>>500988
>Обучать модели лучше онлайн
Вплане в гугл коллабе RVC?

Аноним 28/09/23 Чтв 19:10:19 № 502978 427

>>502964
гугл коллаб отрубили уже.
https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru?scriptVersionId=143284909
Вот. Сам этим пользуюсь. Вот гайд https://youtu.be/uA92FDw_Xfw

Аноним 29/09/23 Птн 01:23:36 № 503123 428

Кто-нибудь пользуется Tortoise? Почему иногда выдаёт шикарные результаты, а иногда вообще пиздец что (на одном и том же сете)? И как можно генерировать текст побольше, а не два предложения за раз?

Аноним 29/09/23 Птн 02:30:10 № 503137 429

У кого сколько занимает времени тренировка модели RVC ? Количество эпох/размер датасета/видеокарта. Думаю арендовать таки машину, хочу прикинуть сколько выйдет по стоимости.

Аноним 29/09/23 Птн 06:27:28 № 503171 430

>>503137
тебе минимум нужна 2080 видюха. Ибо меньше это анриал. Трень в коллабе. Я выше кидал ссылки

Аноним 29/09/23 Птн 10:07:38 № 503242 431

>>502630
слушай анончик можно списаться с тобой по тг? очень нужно помощь, пару вопросов и я отстану

В общем есть очень много отрывистых аудиозаписей любимого мною человека которого уже давно нету. Они разной длины от секунды до 12 секунд. У меня еле набирается минут 10, так что мне как то надо будет воспользоваться также аудио сообщениями в одну секунду. Я уже все почистил, убрал шумы, вырезал то что надо, убрал реверб эхо. Все это лежит в папке в виде аудио сообщений с разными длинами. Единственный вопрос который стал для меня камнем преткновения это как сегментировать аудио и вооьще надо ли.

Где то пишут что для РВС некатегорично делить, можно просто вырезать паузы и локальные шумы. Кто то говорит что главное чтобы менее 10 секунд. Кто говорить что еще надо чтобы га был длиннее 4 секунд. Кто то пользуется виспером а кто самолично вырезает с помощью аудасити. Можете подсказать что мне делать.

Аноним 29/09/23 Птн 10:35:22 № 503270 432

>>503123
Какой репозиторий используешь?
Тренированную модель или дефолтную?

Аноним 29/09/23 Птн 11:16:32 № 503314 433

>>503270
>Какой репозиторий используешь?
Какой Бог послал. Всё делаю через два Коллаба, по этим гайдам на Ютубе:
>CLONE ANY VOICE WITH AI (GOOGLE COLAB) | 3 MINUTE TORTOISE-TTS TUTORIAL
>Longer Speech With Tortoise-TTS 🔊 | Tutorial | Voice Cloning
Датасет делаю по гайду из гитхаба

Аноним 29/09/23 Птн 19:15:48 № 503566 434

>>503171
Под арендой я имел облако, но не колаб. Смотрел на vast и runpod, там хотя цена ~0.50$/час, но надо залить 10$ минимум, а мне столько не надо. Lambda Cloud ещё есть, но хз как там с минималкой. Думаю модель за 1-2 часа должна натрениться, у меня датасет небольшой, вот и спрашиваю у кого какой опыт

Аноним 29/09/23 Птн 19:54:20 № 503588 435

>>503566
датасет небольшой значит модель говно будет

Аноним 29/09/23 Птн 23:26:19 № 503758 436

Поясните по каверам с неко арк. Это на каком языке изначально натренированная модель и где вообще ее взять?

Аноним 30/09/23 Суб 01:11:04 № 503851 437

А такое как делается?

Аноним 30/09/23 Суб 01:30:58 № 503868 438

>>503851
Без нейросетей, детали у авторов мешапов

Аноним 30/09/23 Суб 04:02:31 № 503924 439

>>503868
rave dj же может так делать чёб нейронку не натренить делать мешапы А ?

Аноним 30/09/23 Суб 07:43:29 № 503951 440

>>503758
Модели пофиг на каком языке говорить. Гитлера на немецком обучали, но вон он как на украинском гимн поет! Короче. Бери тут
https://drive.google.com/file/d/1GJJqRdRvZ6ilwwX6ZG7cPkx-84vN1FPe/view?usp=drive_link

Аноним 30/09/23 Суб 16:11:55 № 504132 441

анончики подскажите пожалуйста

у меня 15 минут хорошего отчищенного датасета, но они разной длины. Я вырезал через аудасити, там убрал эхо реверб, шумы, шипение, нормализовал все.

Кто то говорит что одно двух секундые вырезки норм. Кто то говорит что длина должна быть между 4 и 10 секунд. кто то режет через виспер кто вручную, кто то удаляет тишину и молчание а кто то нет.

Вот и не понятно что делать? Это единственное что я просто не могу понять.

Помогите кто нибудь?

Аноним 30/09/23 Суб 16:33:56 № 504148 442

>>504132
соедини все записи. Потом порежь на записи по 10 сек. 10 сек самая оптимальная длина

Аноним 30/09/23 Суб 16:48:57 № 504157 443

>>504148
То есть уже разделить на десять напофиг?

Аноним 30/09/23 Суб 16:58:13 № 504161 444

>>504157
да

Аноним 30/09/23 Суб 17:10:45 № 504164 445

>>504161
Слушай анона я могу списаться? просто поспрашивать, я честно отьебусь потом, хочешь даже могу предложить заработок, есть вариант.

Аноним 30/09/23 Суб 17:16:17 № 504172 446

>>504164
давай пиши.

Аноним 30/09/23 Суб 17:29:07 № 504188 447

Аноним 30/09/23 Суб 17:37:01 № 504196 448

>>504164
анон. куда писать то?

Аноним 30/09/23 Суб 18:34:27 № 504242 449

>>504132
> https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/Instructions-and-tips-for-RVC-training#audio-split
RVC автоматически нарежет датасет на отрезки по 4 секунды.

Аноним 30/09/23 Суб 19:29:29 № 504284 450

>>504172
>>504196
@dosanddosya пиши сюда пожлуйста я жду

Аноним 30/09/23 Суб 20:55:14 № 504343 451

Чем соединяете вокал и инструментал? Попробовал ableton, но файлы не ровные, а по тактам замучался подгонять и в целом дико неудобно выглядит весь процесс.

Аноним 30/09/23 Суб 21:07:58 № 504351 452

>>504343
Убери в настройках эблтона принудительный варпинг длинных треков и настраивай вручную или переезжай в рипер.

Аноним 30/09/23 Суб 21:10:17 № 504354 453

посоны, хочу натренировать нужный мне голос и им озвучивать текст который я буду давать ему через сосноль, я так понял RVC которая это умеет делать нет и обязательно нужно сперва как еблан озвучить текст любой TTS встроенными голосами и потом уже переделывать этот аудио во второй раз в нужный мне голос? неужели всё так хуёво?

Аноним 30/09/23 Суб 21:18:30 № 504362 454

>>504354
так сам создай лол. Чтобы твой форк делал сначала голос через ттску а потом переозвучивал его

Аноним 30/09/23 Суб 21:25:09 № 504366 455

>>504362
анон, я о RTC меньше месяца назад узнал, а ты мне предлагаешь уже форк делать, ты меня не понял, я имею ввиду только такой уебанский способ существует на данный момент с двойным конвертированием? то есть сперва текст в дефолтголос, а уже из него нужный тебе голос, неужели боги AI ещё не придумали ничего такого что сразу из текста делает нужный голос без двойной работы?

Аноним 30/09/23 Суб 21:25:57 № 504367 456

>>504366
>RVC
fix

Аноним 30/09/23 Суб 21:30:19 № 504374 457

>>504366
придумали такое. щас найду и скину

Аноним 30/09/23 Суб 21:31:17 № 504376 458

>>504366
https://github.com/litagin02/rvc-tts-webui
говеное конечно но есть

Аноним 30/09/23 Суб 21:34:30 № 504381 459

>>504376
это уже видел анончик, там как раз сперва делает дефолтговно, а из него нужный голос, получается напрямую из текста нужным голосом пока нельзя, или нужно подождать анончика который знает такой вариант

Аноним 30/09/23 Суб 21:35:29 № 504383 460

>>504381
ну как бы тебе сказать. этого анона который знает такой вариант нету.....

Аноним 30/09/23 Суб 21:37:36 № 504385 461

>>504381
а в чем проблема то? Взял сделал свой собственный синтезатор голоса из нужного тебе и все

Аноним 30/09/23 Суб 21:42:05 № 504386 462

аноны, вы хотите сказать вот это
https://www.youtube.com/watch?v=ZpHyoKvLkR0
https://www.youtube.com/watch?v=k1uL_dVGdkk
тоже делается сперва озвучкой текста в говноголос, а потом переозвучка говноголоса в голос персонажа?

как они пишут промпт что он позволяет им обсуждать любые темы и с матом? ведь ChatGPT сразу начинает ныть когда материшься или обсуждаешь запрещённые пидорасами темы

Аноним 30/09/23 Суб 21:43:05 № 504388 463

>>504385
если бы я был гуру нейросетей, я бы такой вопрос не задавал, ну же

Аноним 30/09/23 Суб 21:43:20 № 504389 464

>>504386
да. все так

Аноним 30/09/23 Суб 21:46:47 № 504392 465

>>504383
странно что ещё нет индуса который бы сделал такой форк, его бы боготворили все школьники мира

Аноним 30/09/23 Суб 21:47:44 № 504394 466

>>504392
знаешь как искать надо. В гитхабе пишешь rvc или webui и сортируешь по недавно добавленным

Аноним 30/09/23 Суб 21:52:16 № 504396 467

>>504386
в чём заключается логика такого стрима?

чел нарезает сюжет от ChatGPT на кучу реплик, озвучивает каждую в промежуточную озвучку, потом в озвучку от нужного голоса и склеивает все эти кучи говн воедино и запускает проигрывание этого аудиомутанта пытаясь уверить нас что это общение между персонажами? а на деле просто склейка того что высрала RVC высрав кучу аудиофайлов?

Аноним 30/09/23 Суб 21:53:16 № 504397 468

>>504394
и получаешь кучу вишмастеров и бекдоров у себя на ПК?

Аноним 30/09/23 Суб 21:54:54 № 504399 469

>>504397
гитхаб это место куда люди загружают исходные коды. ты можешь просмотреть весь код и убедиться что там ничего нет

Аноним 30/09/23 Суб 21:55:01 № 504400 470

>>504386
не понимаю почему авторы этих нейронок перестали стримить после 1 бана, в чем проблема наклепать тонную ютуб каналов за 10 рубасов

Аноним 30/09/23 Суб 21:56:28 № 504402 471

>>504399
это понятно анон, но сидеть и по 2 дня просматривать исходные коды и быть уверенным что ты ничего не пропустил это не каждый может

Аноним 30/09/23 Суб 21:57:11 № 504403 472

>>504402
если бы там что то было это забанили уже давно

Аноним 30/09/23 Суб 22:06:49 № 504412 473

как в этих ваших гитхабах смотреть сколько раз скачали форк или добавили в избранное или оценили чтобы быть уверенным что качаешь что-то проверенное, а не созданное васяном?

Аноним 30/09/23 Суб 22:08:57 № 504413 474

>>504412
сбоку. и хватит опасаться. изучи английский хотя бы на школьном уровне и понимай что в коде.

Аноним 30/09/23 Суб 22:29:42 № 504427 475

>>504413
это-то я знаю, но сколько я не смотрю в этой статистике всегда всё по минимуму, нуежели на гитхабе такой низкий фидбек от зареганных и все качают из пд гостя и нихуя не пишут, а жрут как есть, меня это удивляет что там нет по 100500 лайкосов и отзывов

Аноним 30/09/23 Суб 22:39:52 № 504436 476

>>504403
>>504413
я вот дня 2 назад так же думал, скачал RVC_GUI вроде вот этот https://github.com/SalvadorDante/RVC_GUI и у меня начались проблемы с роутером, сперва в виде ограничения скорости, а теперь постоянные перезагрузки, теперь вот сижу и думаю совпадение это или с первого раза я присел на анальные зонды от индуса, потому что это говно у меня сразу не завелось и стало выдавать ошибку

Аноним 01/10/23 Вск 07:08:34 № 504616 477

>>504436
ну дык правильно. говно скачал. есть рабочее гуи для рвс его и качай

Аноним 01/10/23 Вск 16:09:28 № 504952 478

а если есть модель 100 эпох, как ее продолжить тренить?

Аноним 01/10/23 Вск 19:21:23 № 505154 479

аноны, по ссылке https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI скачивает архив в 1мб, как я понимаю это просто основа и чтобы скачать всё нужно ввести команды из инструкции по install, но я не хочу ставить кучу ненужного дерьма себа на пекарню, как можно скачать готовый архив со всеми файлами чтобы всё работало как portable версия из папки и без всяких ебаных зависимостей и виртуальных сред?

Аноним 01/10/23 Вск 19:27:43 № 505159 480

>>505154
>>461506

Аноним 01/10/23 Вск 19:45:00 № 505197 481

>>505159
то есть вот это качать?
For Nvidia GPU users:
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC0813Nvidia.7z

там получается всё уже в куче и ненужно 100говн себе ставить?

спасибо анон

Аноним 01/10/23 Вск 19:48:10 № 505200 482

>>505197
> то есть вот это качать?
> там получается всё уже в куче и ненужно 100говн себе ставить?
Всё верно.

Аноним 01/10/23 Вск 20:20:16 № 505249 483

когда примерно ожидается 3 версия рвс?

Аноним 01/10/23 Вск 20:47:12 № 505271 484

С рвс и урл вроде немного разобрался. Теперь скажите можно ли модели из рвс использовать для озвучки текста переведя озвучку в мп3 какой-нибудь? И если да то что используется?

Аноним 02/10/23 Пнд 10:49:41 № 505806 485

аноны, самый лучший RVC это оригинальный от RVC-Project? какие ещё есть интересные форки?

Аноним 02/10/23 Пнд 11:13:21 № 505817 486

посоны, можете вкраце пояснить по ckpt и Onnx, что это такое и для чего и как использовать?

Аноним 02/10/23 Пнд 11:14:47 № 505819 487

как можно соединить полученный вокал и инструментал без установки стороннего софта, шобы через сосноль склеивать? ффмпег это умеет? подскажите команду

Аноним 02/10/23 Пнд 22:33:30 № 506521 488

Аноны посоветуйте хороший TTS типа этого:
https://huggingface.co/spaces/coqui/xtts

Аноним 02/10/23 Пнд 22:59:27 № 506554 489

>>461500 (OP)
Как скоро появится массовый дубляж фильмов и аниме с использованием HeyGen или её конкурентов? В самой HeyGen я вижу две проблемы: 1) она не захватывает звуки фона, захватывает только сам голос, 2) она меняет так же и видеоряд, перекодирует видео на своей стороне, то есть делает его тяжёлым и с дефектами.

Аноним 02/10/23 Пнд 23:10:02 № 506569 490

>>506554
Хочу чтобы появился конкурент HeyGen такой же как Stable Diffusion конкурент для Midjourney - опенсорс, бесплатный, с локальными вычислениями.

Аноним 03/10/23 Втр 09:16:14 № 506891 491

>>506569
А я хочу чтобы песни мировые хиты были понятны для каждого на родном языке, чтобы были автокаверы. Suno это только начало

Аноним 03/10/23 Втр 15:57:09 № 507210 492

>>506554
>Как скоро появится массовый дубляж фильмов и аниме с использованием
Никогда, диктор стоит дешевле, чем оплата звукомонтажера, и делает свою работу раз в 20 быстрей. Вот ты ради интереса зайди в вакансии и посмотри когда посудомоечные машины оставят без работы посудомоек. Дикторов дохуя, сейю дохуя, они готовы работать за хлеб и воду, голосов похожих тоже дохуя. Ебалами они светить не могут, поэтому все легко заменимы, если вычеркнуть очевидное кумовство и непотизм.

Аноним 03/10/23 Втр 18:38:46 № 507353 493

Хлопцi, бачили вже обновление UVRv5? Наконец-то добавили модель MDX23C-8KFFT-InstVoc_HQ

Аноним 03/10/23 Втр 19:32:06 № 507406 494

>>507210
>звукомонтажера
Чел... ИИ заменит и их.

Аноним 03/10/23 Втр 20:04:14 № 507430 495

годноты итт

Аноним 03/10/23 Втр 22:15:01 № 507578 496

>>507406
>Чел... ИИ заменит и их.
Посудомойщиц сперва замени, потом поваров, великий заменитель.

Аноним 03/10/23 Втр 22:53:02 № 507639 497

>>507578
Как я тебе блядь заменю то, что нахуй никому не нужно будет после прихода нейронок требует физического присутствия? Наркоман ёбанный.

Аноним 03/10/23 Втр 23:44:47 № 507711 498

>>497967
Самописные на C#

Аноним 04/10/23 Срд 01:43:32 № 507770 499

Мне срочна нужно сделать запись Мори говорящей о лошадях. Раньше использовали Elevenlabs но теперь клонировать там никак... Есть тлдр что именно выбрать для ттса а не песен? Самплы есть уже готовые

Аноним 04/10/23 Срд 09:36:07 № 507809 500

А есть гайд по Audacity как почистить сэмпла от всякого говна?

Аноним 04/10/23 Срд 09:36:30 № 507810 501

А есть гайд по Audacity как почистить сэмпла от всякого говна?

Аноним 04/10/23 Срд 12:35:37 № 507888 502

Анон, сколько эпох нужно, чтобы натренировать модель через RVC на качественном датасете (рипнут с игры)

Аноним 04/10/23 Срд 16:04:06 № 508046 503

>>507888
если аудио записей больше 150 или 200 то брать можно 250 эпох. Если аудио до 100 то бери 300-400 эпох. 150-200 аудио по 10 секунд каждая

Аноним 04/10/23 Срд 16:05:05 № 508047 504

>>508046
я модель артаса(из варкрафта 3) тренил на 400 записях по 10 сек. Офигенная модель вышла. Брал 250 эпох

Аноним 04/10/23 Срд 23:06:51 № 508526 505

>>508046
Натренил на 100 эпохах в датасете 1802 файла, но эта треня капец какая долгая была, по 40 секунд на эпоху, и это на 3060. Кстати, получилось неплохо, видать повезло. А ведь еще надо tortoise натренить, чтобы можно было нормальный tts запилить. А он раз в пять медленней треннится. Это вообще нормально, что он так медленно обучается? Или я как всегда, что-то не так поставил.

Аноним 05/10/23 Чтв 07:15:39 № 508766 506

>>508526
>но эта треня капец какая долгая была, по 40 секунд на эпоху,
ээээх как же я тебя понимаю. Тяжело наверно. (1050 ти эпоха по 30 сек даже на 360 файлах)

Аноним 05/10/23 Чтв 07:17:39 № 508767 507

>>508526
тотроис тебе нафик не нужен. Бери эдж ттс прогоняй текст через него а потом через рвс

Аноним 05/10/23 Чтв 07:34:14 № 508771 508

>>508766
по 30 минут точнее. быстрофикс

Аноним 05/10/23 Чтв 07:56:20 № 508778 509

>>508526
Tortoise медленно тренит, но ему много эпох не нужно, погоды не делает

Аноним 05/10/23 Чтв 13:18:33 № 508985 510

>>508047
показывай

Аноним 05/10/23 Чтв 14:18:38 № 509034 511

аноны подскажите плиз сетку менять свой голос на тянский

наверняка ведь натренировали уже

Аноним 05/10/23 Чтв 14:22:17 № 509039 512

ПРИЗЫВАЮ ПЕРЕКАТ

Аноним 05/10/23 Чтв 14:37:35 № 509061 513

Дискорд-сервер https://discord .gg/aihub выпилили, кто-то поднял сервак с бекапами здесь: https://voice-models.com/

>>509039
Чем котить?

Аноним 05/10/23 Чтв 14:46:39 № 509072 514

Ещё бекапы здесь есть: https://www.weights.gg

Аноним 05/10/23 Чтв 14:57:43 № 509080 515

> AI Hub was banned because of copyright, apparently someone did the trick of editing posts and added several links with copyrighted content, which left Discord with no option but to DMCA the server.
> The owner, menhguin, was also banned, so it's quite possible that the server won't come back.
> Apparently there will be a second server, but unfortunately all progress/history from the other server has been lost.
Это пиздец.

Аноним 05/10/23 Чтв 15:36:05 № 509118 516

>>509080
> Discord
И правда пиздец.

Аноним 05/10/23 Чтв 15:36:57 № 509123 517

>>509080
Да, создавать каталоги на дискорде это полный пиздец и отсутствие головного мозга.

Аноним 05/10/23 Чтв 16:26:31 № 509187 518

Есть у кого Лето и Арбалеты голосом Гань Юня из геншина? Дайте пожалуйста. Что-то не смог найти в прошлых тредах, хотя точно видел на дваче.

Аноним 05/10/23 Чтв 16:34:22 № 509195 519

>>508767
Сомневаюсь что получится так же классно как тут: https://www.youtube.com/watch?v=vhArHsfsLAQ в этом ролике автор идеально скопировал свой голос используя связку tortoise + rvc. Но спасибо, попробую.

Аноним 05/10/23 Чтв 16:36:44 № 509197 520

>>508771
F, слышал на 10-ых сериях нвидия плохо с параллелизмом, из-за этого на них плохо работают нейронки.

Аноним 05/10/23 Чтв 16:41:21 № 509204 521

>>508778
Ок так и сделаю, поставлю на 20 эпох, правда все равно, время обучения 10 часов, и комп после этого горелым пахнет, чтобы не сгорел нафиг надо окно открыть.

Аноним 05/10/23 Чтв 19:10:31 № 509369 522

>>508526
> Натренил за полтора часа
> треня капец какая долгая была
Чувак

Аноним 06/10/23 Птн 06:36:52 № 509750 523

Ребят у кого есть опыт работы с коллабом mangio RVC fork? Я купил колаб про, впервый раз выданная ссылка открылась и все было прекрасно. Потом я по своей глупости все это дело закрыл. Потом решил еще раз открыть с гитхаба колаб и каждый раз когда я его запускаю ссылки больше не открывают веб версию. Я пробил какой то лимит на запрос? Что это вообще?

Аноним 06/10/23 Птн 13:03:51 № 509944 524

Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом, есть какие то решения? Пока нашел прогу ттс реадер, но там нужен движок хороший японский, а их нереал скачать есть только каловый шиндовса. Полистал что нейронки предлагают, но там вроде везде нужно ручками текст вставлять жать кнопочку вкл и слушать, не программист чтоб все это автоматизировать самостоятельно, может придумали уже что то такое?

Аноним 06/10/23 Птн 19:59:16 № 510291 525

Подскажите тут раньше кидали ссылку на какую-то нейросеть для очистки старых голосовых записей от шумов. Проебал ссылку, не могу найти теперь.

Аноним 06/10/23 Птн 21:05:10 № 510347 526

Артас читает па[...].mp4 14816Кб, 900x900, 00:05:01

>>508985

Аноним 06/10/23 Птн 21:07:59 № 510356 527

>>509944
>Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом
чего?

Аноним 06/10/23 Птн 22:48:36 № 510482 528

>>509061
>Чем котить?
КОТИ ЧЕМ ЕСТЬ

ПЕРЕКАТ Аноним 07/10/23 Суб 21:34:15 № 511208 529

>>511205 (OP)
>>511205 (OP)
>>511205 (OP)

Аноним 08/10/23 Вск 18:14:33 № 511998 530

Анон, как справляться с хором? Например у меня такой трек: везде обычно, а на 1:09 начинается часть с хором, на которой модель ахуевает
Вокал оригинала: https://voca.ro/19M1lMTqz676
Мой кавер: https://voca.ro/1itbIvewKIm8

Аноним 24/10/23 Втр 01:18:43 № 527899 531

>>511998
>Анон, как справляться с хором?
Никак, вокал должен быть чистым без "эффектов" Придется как то ручками, записать отдельно а уже на обработанную нейронком добавить хор эффект

Аноним 26/10/23 Чтв 22:12:41 № 530102 532

image.png 21Кб, 900x79

Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.

Аноним 28/10/23 Суб 00:00:43 № 530885 533

>>461500 (OP)
Запилите мне речь Пыни о Кормлении личинок.

Аноним 14/11/23 Втр 02:56:06 № 543619 534

Куда вы все эти модели устанавливаете?
Софт есть какой то или только сайты?

Аноним 14/11/23 Втр 08:25:09 № 543698 535

>>461500 (OP)
Как называется модель на второй вебм?

Назад Вверх Каталог Обновить