Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 535 148 176
Голосовых нейронок тред (TTS, STS, STT) #3 /speech/ Аноним 20/08/23 Вск 01:06:06 461500 1
1577559427366.mp4 13736Кб, 1920x1080, 00:02:58
1920x1080
1543533656176.mp4 13842Кб, 1024x1408, 00:03:33
1024x1408
1643150738128.mp4 8711Кб, 780x256, 00:03:14
780x256
1606708732976.mp4 6860Кб, 1280x720, 00:02:23
1280x720
1551863187930.webm 14110Кб, 1200x512, 00:04:44
1200x512
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Text To Speech (TTS) 📝 👉 🎤

Silero
Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский.
https://github.com/snakers4/silero-models

Есть 2 GUI:
Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero
Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks

Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff

VITS-Umamusume-voice-synthesizer
Только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
Кажется можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Speech To Speech (STS) 🎤 👉 🎤

Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners
Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main

Утилиты для отделения вокала от инструменталки идут в комплекте.

Speech To Text (STT) 🎤 👉 📝

Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

Прочее 🛠️
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer
Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video

Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS

Шаблон для переката: https://rentry.org/byv2s
Предыдущий тред: >>314948 (OP)
Аноним # OP 20/08/23 Вск 01:10:58 461506 2
Аноним 20/08/23 Вск 01:23:29 461518 3
hands.mp4 16031Кб, 512x512, 00:04:10
512x512
вкатился
Аноним 20/08/23 Вск 02:24:17 461551 4
Мэддисон - мы у[...].mp4 14297Кб, 960x540, 00:03:41
960x540
Спасибо анону в прошлом треде который подсказал как починить RVC. Сделал свой первый кавер, зацените.
Аноним 20/08/23 Вск 09:41:04 461662 5
Короче rvc явно лучше поет, но модель получается ужасная, не знаю почему.
Использую тот же датасет, но результат в 100 раз хуже чем в svc
Аноним 20/08/23 Вск 14:00:20 461792 6
>>461551
Мод для КР надо сделать с этим треком.
Аноним 20/08/23 Вск 16:48:06 461892 7
Почему нет нормального гайда, где объясняется, от чего зависит batch size и количество эпох? Или я слепой?
Аноним 20/08/23 Вск 17:26:05 461912 8
>>461892
ты тупой?
эпоха это один прогон всего твоего датасета
бач сайз это количество прогонов одновременно
Аноним 20/08/23 Вск 18:22:23 461958 9
Как соединить голоса RVC с ламой?
Аноним 20/08/23 Вск 19:06:49 461974 10
Аноним 20/08/23 Вск 19:25:07 461993 11
>>461892
Ставь максимально высокий батч-сайз (=на скольки файлах одновременно обучается нейронка), который позволит твоя видеокарта. Число эпох (=количество полных прогонов по твоему датасету) можешь делать настолько большое, насколько позволяет время. Эти сетки (CVS/RVC) не переобучаются, в отличии от той же SD. Просто в какой-то момент не будет никакой разницы между эпохами.
Аноним 20/08/23 Вск 20:23:03 462036 12
>>461974

Почему бы не приложить .bat/.sh файл который сам выполнит все это консольное установочное говно? Это дело пяти минут, зато каждый кто будет ставить твое дерьмо не будет тратить эти пять минут(или три часа, если он впервые это делает). А некоторые вообще дропнут нахуй, когда увидят твою инструкцию на тридцать шагов.
Аноним 20/08/23 Вск 21:59:42 462094 13
image.png 122Кб, 1875x613
1875x613
Аноним 20/08/23 Вск 22:23:09 462106 14
>>462094
Вроде такой проблемы у меня не было.
Тут только можно попробовать
pip install chardet
Аноним 20/08/23 Вск 23:07:52 462132 15
>>462106

Помогло.
Запустилось после плясок с бубном. Тебе стоило написать что надо имя персонажа в настройках указать, а то работать не будет.
Работает через пень-колоду, если честно. Во-первых - ты зачем-то родил полностью новый интерфейс вместо того чтобы сделать форк уже готового экстеншена к убабуге, при этом никаких настроек оббращения к апи я не увидел. Во-вторых, wake слово он понимает через раз(жутко бесит), русский язык не понимает вообще. В третьих - голос на выходе все равно без нужного выражения, почти никакой разницы с встроенным в убабугу силеро.
Аноним 20/08/23 Вск 23:13:08 462134 16
>>462132
>Во-вторых, wake слово он понимает через раз(жутко бесит)

Какое имя ты используешь. Если как-то японское, то может такое быть, используй ангйлиское.
Имя lisa, которое стояло у меня понимал почти всегда с первого раза.

>wake_words = ["lisa"]
Вот здесь можешь указать несколько wake_words, если твое имя он понимает всегда по разному.

>русский язык не понимает
Под русский да, надо еще отдельно допиливать, чтобы работало.
Аноним 21/08/23 Пнд 00:08:51 462202 17
image.png 25Кб, 927x391
927x391
>>462132
> голос на выходе все равно без нужного выражения
В теории выражение в silero можно частично делать с помощью тегов. Надо заставить с помощью какого-то промта ламу генерировать с тегами.
Аноним 21/08/23 Пнд 00:47:21 462236 18
>>462202
Эх, полумеры. Нужна нормальная мультимодалка с выводом голоса напрямую.
Аноним 21/08/23 Пнд 01:36:58 462262 19
.mp4 11938Кб, 1792x1200, 00:05:09
1792x1200
Аноним 21/08/23 Пнд 01:39:37 462266 20
>>462262
Смотрю, у меня в браузере видео не воспроизводится, чем вы сшиваете? Я делал:
ffmpeg -i zima_letov.png -i zima_letov.wav -c:a aac -b:a 320k zima_letov.mp4
Аноним 21/08/23 Пнд 02:32:23 462292 21
.mp4 11943Кб, 1792x1200, 00:05:09
1792x1200
Алсо, спасибо Сенкофагу за вдохновение попробовать RVC, это оказалось куда проще, чем я думал.
В замечательное время живём.
Аноним 21/08/23 Пнд 02:34:06 462293 22
>>462292
Ну вот, теперь даже превью нет. Я явно что-то делаю не правильно.
Аноним 21/08/23 Пнд 02:35:08 462296 23
>>462266
Попробуй так:
ffmpeg -loop 1 -i image.png -i audio.wav -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Или через второй таб в этой штуке, но если через онлайн делать, там пара секунд тишины в конце добавится: https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
Аноним 21/08/23 Пнд 02:56:11 462300 24
.mp4 29324Кб, 1792x1200, 00:05:09
1792x1200
.mp4 29735Кб, 1792x1200, 00:05:09
1792x1200
>>462296
Так ffmpeg ошибку выдает:
inflate returned error -3
Error while decoding stream #0:0: Generic error in an external library

Через сайт за 10 минут так и не сконвертил.

Попробую сконверить аудио отдельно и потом так:
ffmpeg -loop 1 -framerate 1 -i image.png -i audio.aac -map 0 -map 1:a -c:v libx264 -preset ultrafast -tune stillimage -vf fps=10,format=yuv420p -c:a copy -shortest output.mp4
Аноним 21/08/23 Пнд 02:57:21 462301 25
>>462300
Во, теперь норм вроде.
Аноним 21/08/23 Пнд 03:08:55 462305 26
emoji-in-distre[...].gif 3366Кб, 630x640
630x640
сенко скримить не умеет
Аноним 21/08/23 Пнд 03:59:34 462318 27
>>462292
>>462300
Шикарно вышло, анон. И почему я сам не догадался вокал из песен Аргонова попробовать ею переозвучить... Спасибо, что поделился.

Добро пожаловать в клуб.
Аноним 21/08/23 Пнд 04:05:09 462319 28
senkoelis.webm 14554Кб, 1024x1536, 00:03:47
1024x1536
Аноним 21/08/23 Пнд 12:58:40 462457 29
>>462318
Да, я поделал сначала несколько генераций и понял, что от качества голосовой дорожки зависит 80% результата, а у Аргонова же все исходники на гите лежат. Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.

Спасибо.
Аноним 21/08/23 Пнд 14:06:17 462504 30
>>461500 (OP)
Что для АМД(ЦП)даунов посоветуете? Кроме РКН конечно.
Аноним 21/08/23 Пнд 14:40:08 462532 31
ElevenLabs всё? У меня только получилось зарегаться (раньше не пускало даже через впн), а там генерация голоса уже платная. Нет лазеек, как с claude/gpt4 и прочими платными сетями?
Аноним 21/08/23 Пнд 14:50:39 462535 32
>>461993
На 2060 rtx какой батч сайз ставить? А чекпоинты как ставить в svc?
Аноним 21/08/23 Пнд 15:19:09 462544 33
>>462504
Силеро на процессоре работает даже лучше, чем на видеокарте, лол.
>>462532
>ElevenLabs всё?
Всё, уже месяца три как.
>>462535
>На 2060 rtx какой батч сайз ставить?
Берёшь и тестишь, кто знает, может у тебя там в фоне игра запущена, и врама осталось полгига?
Аноним 21/08/23 Пнд 15:23:36 462547 34
>>462544
А как вообще тренировка нейросети влияет на ресурс видеокарты?
Аноним 21/08/23 Пнд 15:28:05 462551 35
>>462547
Так же, как и любое другое использование. Хочешь вечной жизни своей картонке? Положи её в сейф в безводную и безкислородную атмосферу, авось 30 лет пролежит.
Аноним 21/08/23 Пнд 16:58:26 462588 36
image.png 7Кб, 955x82
955x82
Так и должно быть или я на не на видюхе генерю?
Аноним 21/08/23 Пнд 17:13:02 462596 37
изображение.png 48Кб, 780x770
780x770
>>462588
Проверяй на вкладке ГПУ, выбери куду.
Аноним 21/08/23 Пнд 17:14:14 462598 38
>>461551
модельку на мэда для RVC где можно скачать? был бы оч благодарен за ссыль
Аноним 21/08/23 Пнд 17:20:31 462600 39
image.png 6Кб, 404x103
404x103
>>462596
А почему в диспетчере не пишет тогда
Аноним 21/08/23 Пнд 17:21:51 462602 40
>>462600
Потому что оно считает 3D нагрузку, очевидно жи.
Аноним 21/08/23 Пнд 18:02:05 462629 41
.mp4 26277Кб, 1792x1200, 00:04:12
1792x1200
Аноним 21/08/23 Пнд 19:14:07 462673 42
>>462598

https://discord .com/channels/1089076875999072296/1099149801054019604
Аноним 21/08/23 Пнд 19:30:35 462689 43
Аноним 21/08/23 Пнд 20:57:10 462765 44
Аноним 21/08/23 Пнд 21:20:17 462779 45
Колаб STS - всё.
Аноним 21/08/23 Пнд 21:41:33 462799 46
>>462457
Поделишься ссылкой на репу с исходниками Аргонова? У меня оф. сайт не открывается и нагуглить не могу.
Аноним 21/08/23 Пнд 21:45:47 462802 47
Аноним 21/08/23 Пнд 21:47:54 462803 48
Аноним 22/08/23 Втр 09:41:16 463128 49
>>462319
Шикарно. Тут на всей борде полтора анчоуса знают Елизарова. Скинул в тематический, авось оценят. Вкрации расскажите как делать такие шедевры.
Аноним 22/08/23 Втр 10:25:36 463159 50
Вы когда вырезаете звук из мультиков, фоновый шум чем убираете?
Аноним 22/08/23 Втр 11:11:43 463189 51
Там силеро выпустили новые модели v4 для русского. Только они хуже, лол.
Аноним 22/08/23 Втр 12:20:40 463221 52
Есть способ менять свой голос на тянский в реальном времени?
Аноним 22/08/23 Втр 12:32:09 463227 53
колхозный панк.mp4 6398Кб, 850x952, 00:03:34
850x952
продавец кошмар[...].mp4 7056Кб, 764x1080, 00:03:34
764x1080
на горе стоит в[...].mp4 6755Кб, 640x904, 00:02:52
640x904
Аноним 22/08/23 Втр 12:40:39 463232 54
>>463221
> A fork of so-vits-svc with realtime support
Аноним 22/08/23 Втр 14:28:21 463304 55
yandex.mp4 22995Кб, 512x768, 00:04:49
512x768
coi1.mp4 10164Кб, 512x512, 00:03:14
512x512
coi6.mp4 14976Кб, 512x768, 00:03:23
512x768
>>462457
>качества голосовой дорожки зависит 80%
Это база. Поэтому свежеспизженные модели первым делом идут морфить голос комрада с выразительной речью.
Но у меня парадокс - самый чистый морф получился на шипящем мешапе.
>>463128
На ютубе разжовывают по промту RVC тред Елизарова?
Аноним 23/08/23 Срд 07:22:45 463977 56
Пытался научить rvc на голосе одного черта из одной игры, а получился neco ark с фильтрами ревебирации. Дайте совет как делать чтобы делать хорошо
Аноним 23/08/23 Срд 09:30:42 464009 57
>>463977
Хм, я подумал, может дело в том голос оригинального британского актера довольно высокий? Я впервые раз попробовал и ещё ничего не понимаю
Аноним 23/08/23 Срд 10:51:27 464044 58
>>464009
Ну повысь голос, там же можно
Аноним 23/08/23 Срд 19:52:04 464445 59
>>413975 →
>Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
>RVC модели⬇️
>RVC_Voice_1:

Анон, нихера не могу найти такого вообще. КАК ТАК-ТО?
Может у кого есть RVC Андрея Ярославцева, пацаны, поделитесь?
Аноним 23/08/23 Срд 20:01:49 464450 60
>>464445
Блин там короче не RVC походу...
Аноним 24/08/23 Чтв 04:54:23 464811 61
>>464445
Ищи просто "XpucT", тот канал будет в первой десятке выдачи.
Аноним 24/08/23 Чтв 05:30:16 464819 62
>>464009
Ух ебат, вроде бы с голосом ру локализации работает лучше, за исключением тянущихся гласных.
Что будет если накидать для обучения сразу 2 или даже 3 отдаленно похожих голоса? Получится что о среднее или результат будет прыгать от одного к другому?
Аноним 24/08/23 Чтв 11:20:49 464945 63
Аноним 24/08/23 Чтв 16:03:00 465151 64
>>464811
Спасибо, так нашлось, но да там не RVC, ех...
Аноним 24/08/23 Чтв 22:56:47 465639 65
Мнеможнодоверит[...].mp4 448Кб, 1024x576, 00:00:10
1024x576
блять ебать там текста в шапке вы ебанутые я поридж с свдг
Аноним 24/08/23 Чтв 23:10:20 465672 66
Аноним 25/08/23 Птн 15:11:26 466112 67
senkormvpe1.webm 2800Кб, 512x768, 00:02:24
512x768
senkormvpe2.webm 6915Кб, 512x768, 00:05:43
512x768
senkormvpe3.webm 6254Кб, 512x768, 00:04:48
512x768
senkormvpe4.webm 8465Кб, 512x768, 00:06:34
512x768
senkormvpe5.webm 1833Кб, 512x768, 00:01:26
512x768
senkormvpe6.webm 4301Кб, 512x768, 00:03:39
512x768
rmvpe
Аноним 25/08/23 Птн 16:13:29 466165 68
output.mp4 11656Кб, 1080x1920, 00:02:29
1080x1920
>>466112
А капы как вытягивал? RVC?
Аноним 25/08/23 Птн 17:15:43 466217 69
>>466165
>капы
Это чо? В гугле выдаёт только фонк.
Да, RVC.
Аноним 25/08/23 Птн 18:29:06 466259 70
>>466217
Акапеллы сокращёно, голос без музыки.
Аноним 25/08/23 Птн 18:38:08 466262 71
>>466259
Через увре.
Ультимейт вокал ремувер сокращёно
Аноним 25/08/23 Птн 22:32:20 466490 72
БЛЯТЬ, ЕБУЧИЕ НОРМИСЫ В КРАЙ АХУЕЛИ!
Это и есть тот самый пиздинг контента, на который жаловался анон?

https://youtu.be/T5-oLns1TY8?si=TvNK6B70wqsJI5oM

>>458453 →

Эта хуита даже не удосужилась название другое придумать, пиздец.
Главное, 14к просмотров за 8 дней на канале с 31 подписчиками, будто этот видос в какой-нибудь паблик ВПараше запостили.
Аноним 25/08/23 Птн 22:50:12 466495 73
pmc.mp4 28027Кб, 1920x1080, 00:02:01
1920x1080
>>466490
Пчел... В первый раз? Лепи вотермарку и без валидола не лезь в тикток.
Аноним 26/08/23 Суб 00:01:41 466544 74
>>466490
Тебе жалко что ли?
Аноним 26/08/23 Суб 00:04:09 466547 75
>>466544
Я это для анонов делал, а не для какого-нибудь школьника, который это зальёт на ютюб и закинет в свой говнопаблик.
Аноним 26/08/23 Суб 01:18:29 466633 76
>>466547
С тебя убыло? Ты говоришь сейчас как какой-нибудь говноправообладатель, который считает упущенную прибыль по чисслу скачиваний с пиратебея. А по факту тот еблан (я его нисколько не жалею, чувак просто пиздит работы без указания авторства а ты его пиаришь) просто немного расширил аудиторию твоей работы. Возможно даже амёбы из тиктока, посмотрев это, получат такой вау импульс, что он выбъет их из колеи потребление говна и даст сил начать создавать говно самим, а это уже кое какой, да плюс.
Аноним 26/08/23 Суб 04:12:24 466701 77
>>466633
Похуй, жаловаться на авторские права в интернете = бороться с ветряными мельницами.
Аноним 26/08/23 Суб 07:29:07 466751 78
>>466490
Вот поэтому когда я делаю контентич для двача, я обязательно ставлю на нем свою подпись и ссылку на себя, а такое стараюсь как модно быстрее залить, чтобы было легче блочить пидоров ворующих контент
Аноним 26/08/23 Суб 18:48:04 467180 79
>>461500 (OP)
Шапка говно, тред захвачен копролисом.
Аноним 26/08/23 Суб 19:15:43 467192 80
Рот ебал этих TTS. Делаю свой аналог Нейросамы и все готово кроме нормальной речи. Силеро не подходит потому что хочу идти на англоговорящую аудиторию, ибо на русском твиче одни нищеброды да и сама аудитория намного меньше.А на английском Силеро выдает полную содомию вместо речи.
MoeGoe и MoeTTS - какая-то дичь которую непонятно как запускать, что делать, как обучать и где у нее английский язык хоть в каком-то виде. Даже гугл не знает ничего кроме 3.5 респозиториев на гитхабе без толковых мануалов.
Туртоис - генерит хорошо но по 5 минут, для реалтайм стрима не годится ни в каком виде.
Барк - странный и все равно долгая генерация.

Что делать, анон? Может есть еще что-то кроме ажур клауда и елевенлабс?
Аноним 27/08/23 Вск 00:13:53 467485 81
>>467180
это ейка и лисяша
Аноним 27/08/23 Вск 01:26:42 467519 82
Аноним 27/08/23 Вск 02:17:12 467542 83
>>466633
Ящитаю, если человек смотрит тикток, то ему уже не помочь.
Аноним 27/08/23 Вск 12:52:24 467700 84
>>467192
> Что делать, анон?
Пиздуй на завод.
Аноним 27/08/23 Вск 15:38:21 467822 85
Там завезли два примера от bark.cpp TTS (сам репозиторий всё ещё WIP), также обещают добавить voice-cloning.
https://github.com/PABannier/bark.cpp
В первом примере на фоне есть некая мелодия, вероятно использовали [music] токен как у оригинального барка.
Короче эта шняга из-за использования той самой библиотеки GGML должна будет работать почти в реал-тайме ибо оригинал с неквантованными моделями стандартного размера требует около ~10gb vram.
27/08/23 Вск 20:37:33 468221 86
Аноны, а как вы боретесь с картавостью в русских песнях в SVC? Пользуюсь своими датасетами и на выходе постоянно плохо произносится буква Р в песнях, это можно как-то пофиксить?
Аноним 28/08/23 Пнд 13:55:22 468918 87
russosen.mp4 18170Кб, 512x768, 00:03:30
512x768
Аноним 28/08/23 Пнд 16:06:34 469024 88
Киньте тг с моделями
Аноним 28/08/23 Пнд 16:22:28 469030 89
output.mp4 3499Кб, 550x412, 00:03:04
550x412
Может есть модель без этих щелчков ебаных?
Аноним 28/08/23 Пнд 16:56:47 469060 90
>>468221
Да, обучать на датасете РУССКОГО некартавого голоса.
Аноним 28/08/23 Пнд 22:45:28 469458 91
Стикер 0Кб, 512x512
512x512
>>469060
Я там в репозитории в обсуждение читал про это, что вся программа основана на английских фонемах. Поэтому, когда ты обучаешь модель в датасет другого языка будет получаться такой вот "акцент". Не в датасете дело. Возьми любую модель хоть с миллиардом часов обучения и попробуй изменить русскую речь и она всё равно будет картавить английскими фонемами. Да тембр голоса будет идеально похожий на цель, но произносимые звуки будут выдавать англичанина.
Аноним 28/08/23 Пнд 22:57:07 469486 92
Аноним 29/08/23 Втр 00:51:49 469683 93
Прочитал шапку и понял чуть меньше чем нихуя. Может у меня глаза пиздой обшиты, но подскажите такое:

1. Можно ли взять звуковой файл с начинкой текста, скормить его нейронке и на основе этого файла нс будет говорить этим голосом (озвучивать написанное). Это же про это тред?
2. Какова длительность файла? Написано что от 10 минут до часа, а что вы за образцы такие скармливаете? Аудиокниги?
3. И самое главное - например я начитаю 10 минут текста, что именно лучше скачать - чему лучше скормить? Идеально если это локальная история, без всяких там регистраций и смс. Есть что-то типа rope или stable defusion, только для голоса?
Аноним 29/08/23 Втр 03:33:09 469769 94
.mp4 1350Кб, 506x512, 00:00:44
506x512
>>469683
Если говорить про русскоязычную речь, то положняк сейчас такой:

Для генерации голоса из текста (Text To Speech) лучше всего использовать Silero. Запустить его можно локально (Soundworks, смотри этот пост >>448810 → ), поиграться в онлайне без смс и регистраций ( https://huggingface.co/spaces/NeuroSenko/tts-silero тут сетка упадёт, если скормить ей больше нескольких сотен символов за раз; можно скачать этот фронт себе локально при желании), либо поиграться с их официальным ботом в телеге https://t.me/silero_voice_bot но там есть лимиты на бесплатном тарифе. Для Silero доступно несколько готовых русскоязычных моделей, но свои обучать нельзя.

Затем ты можешь поменять оригинальный голос на нужный тебе (Speech To Speech) при помощи SVC либо RVC. Эти системы позволяют тренировать свои голосовые модели. Вот тут тебе и пригодится образец нужного тебе голоса длительностью от 10 минут до часа.

RVC более новый, меньше косячит с произношением и модели там тренируются на порядок быстрее, советую глянуть в его сторону.

> что вы за образцы такие скармливаете? Аудиокниги?
В качестве датасета надо использовать примеры нужного тебе голоса с как можно меньшим числом сторонних звуков.
Аноним 29/08/23 Втр 04:21:45 469786 95
.png 1758Кб, 2308x1375
2308x1375
>>469024
Вот здесь глянь >>413975 →
Либо тут зеркало на хг >>462765

https://discord .gg/aihub
Насколько мне известно, в этом дискорд-комьюнити находится самое крупное структурированное хранилище моделей для SVC/RVC (канал voice-models). Там есть фильтры по нескольким категориям (например, можно искать аниме-персов и исключить неоригинальный дубляж) и работает поисковая строка. Для всех моделей сразу прикреплены примеры с результатами. На каких-то спикеров доступно сразу несколько вариантов моделей.
Аноним 29/08/23 Втр 09:19:07 469863 96
>>469486
И что? Как раз похоже как будто иностранец с акцентом произносит звуки русского языка. Особенно это отчетливо слышно на втором видео. Если ты этого не замечаешь, значит просто слишком долго с сэмплами возился.
Аноним 29/08/23 Втр 12:55:03 469989 97
>>469863
Короче мимо диванный специалист. Проблема в том, что базовые модели, поверх которых мы обучаем, все как одна английские (китайские, мб японские). Для обучение базовой модели с нуля нужен нормальный такой кластер, ну или хотя бы одна А100 на месяц погонять. Такие дела.
Аноним 29/08/23 Втр 13:55:07 470026 98
Сколько эпох лучше поставить для баланса качество/время обучения при наличии 15 минут семплов голоса и моей бомжатской 1060 на 6 гб?
Батч сайз равен 3, если больше то вылетает с нехваткой видеопамяти. Максимальное время ожидания часа 2-3.
Сколько вы вообще в среднем ставите эпох для svc?
Аноним 29/08/23 Втр 13:58:32 470029 99
Есть гайды на rvc? Как его установить вообще?
Аноним 29/08/23 Втр 14:05:00 470032 100
Аноним 29/08/23 Втр 14:54:15 470055 101
image.png 84Кб, 980x508
980x508
Что эта за хуйня? Когда все будет готово, сколько еще ждать?
Аноним 29/08/23 Втр 14:57:29 470057 102
image.png 38Кб, 788x600
788x600
Аноним 29/08/23 Втр 15:03:05 470062 103
>>470055
Это реалтайм замена голоса. Надо жать кнопку Infer, а не (Re)Start Voice Changer, если работаешь с файлом.
Аноним 29/08/23 Втр 15:11:12 470073 104
изображение.png 2Кб, 71x72
71x72
Аноним 29/08/23 Втр 15:35:43 470103 105
>>469786
>СnacuTe XpucT'a
Нихуя не находит его
Аноним 29/08/23 Втр 15:58:19 470131 106
Аноним 29/08/23 Втр 16:37:41 470160 107
изображение.png 17Кб, 518x205
518x205
>>470131
Ебать он пафосный. Ему об этом писали? Пробовали опустить с небес на землю?
Аноним 29/08/23 Втр 20:49:49 470415 108
Что скажете о voice.ai, если мне нужен риал тайм? RVS лучше будет? Как они с русским языком дружат? Насколько сильно грузят комп?
Аноним 29/08/23 Втр 20:51:39 470418 109
Аноним 30/08/23 Срд 16:26:37 471329 110
Аноны подумываю использовать Silero в качестве читалки. В основном для tts есть ли в этом смысл? Интерфейс из шапки попробовал и сразу вопрос можно как-то подкручивать скорость речи? А то уже привык к довольно быстрому темпу гуглвойса
Аноним 30/08/23 Срд 18:57:30 471453 111
Аноним 30/08/23 Срд 19:08:18 471462 112
Аноним 30/08/23 Срд 20:11:52 471539 113
TNV7noRINg.png 180Кб, 1920x1036
1920x1036
>>471453
>>471462
собственно как и любой другой ад зависимостей, эта херня не хочет работать.
Аноним 30/08/23 Срд 20:43:46 471561 114
изображение.png 31Кб, 985x362
985x362
>>461500 (OP)
В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
>>471453
Эм, фигачит весь голос в логу в файл размером в 23 килобайта?
https://vocaroo.com/19oTpoiXKtG3
Качество конечно не фонтан, но там в качестве исходника рандомный файл из сенкодб.

Ну и как всегда, в русский не могёт.
Аноним 30/08/23 Срд 20:44:11 471562 115
>>471561
>логу
лору конечно же. Или как назвать этот мини файл?
Аноним 30/08/23 Срд 20:59:16 471582 116
>>471562
для этого :
> For faster inference, please use “Make prompt” to get a .npz file as the encoded audio prompt, and use it by “Infer from prompt”
эдакий сид, получил хороший результат, сохраняешь и используешь повторно при инференсе.
Аноним 30/08/23 Срд 21:06:04 471593 117
>>471582
Да я понял для чего он. Прикол в том, что его достаточно.
Аноним 30/08/23 Срд 21:25:30 471620 118
изображение.png 35Кб, 1432x278
1432x278
изображение.png 16Кб, 1408x156
1408x156
>>471539
У меня другая ошибка, плюс торч как всегда установился процессорный, 3080Ti такая "Да да, иду я нахуй".
Аноним 30/08/23 Срд 21:34:25 471635 119
firefoxKx7z49nn[...].png 38Кб, 928x534
928x534
Аноним 30/08/23 Срд 23:34:55 471810 120
>>469989
>>469863
Если в датасете нет твердой эр, то как модель сама её создаcт? Никак.
Аноним 31/08/23 Чтв 06:02:22 472004 121
.mp4 6174Кб, 824x518, 00:02:38
824x518
Аноним 31/08/23 Чтв 09:55:05 472090 122
1693464896773.mp4 3462Кб, 720x480, 00:00:49
720x480
Аноним 31/08/23 Чтв 12:27:35 472173 123
>>471462
(мимокрокодил из Лламы)
Офигеть, 6 ГБ врам, у меня Stable Diffusion, BLIP и суммаризатор еще крутятся, скока там врама на все это надо, в таком случае!
А если SDXL, то уже 11+1+2+6=20 гигов минимум.
С SD 1.5 14 гигов минимум.
Понапридумывают, никаких тебе оптимизаций. =с
Так и сидим на силеро.
Аноним 31/08/23 Чтв 14:16:58 472255 124
Аноним 31/08/23 Чтв 14:35:30 472264 125
>>472255
Нарезаю этот видос на семплы и кидаю на тренировку.
В чём не прав?
Аноним 31/08/23 Чтв 14:41:00 472267 126
>>472264
>в мире больше не будет актеров озвучки, будет лишь параша которую будут крутить по кругу + тысяча скамеров ебущих тебя же
Во всем ты не прав. AI-пидоры это беспринципный кал, и против тебя скоро выйдет куча законов.
Можешь поиграться пока есть время.
Аноним 31/08/23 Чтв 14:49:20 472274 127
Аноним 31/08/23 Чтв 15:32:34 472320 128
>>472255
>сейчас можно подделать личность любого кто оставлял цифровые следы
Всё так. Соцсетебляди соснули. Мою личность не подделать, я аноним, у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО. Остальные пускай страдают, сами на себя компромата выложили.
Аноним 31/08/23 Чтв 15:38:16 472326 129
>>472320
>у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО
вот только такие чмохи-ничтожества и радуются с нейросетей
Аноним 31/08/23 Чтв 15:39:49 472330 130
Анон, есть ли способ подключить подписку elevenlabs через русские карты типа сбера или я сосу писю в этом случае?
Аноним 31/08/23 Чтв 16:07:18 472358 131
>>472326
Эм, я то разумист, и сразу знал, чем закончится вся эта катавасия со списыванием денег в банках по голосу и еблету. А остальные да, дауны, и будут страдать.
>>472330
Очевидно что нет, езжай из страны.
Аноним 31/08/23 Чтв 16:18:01 472367 132
1621042765740.jpg 5Кб, 244x250
244x250
>>472358
>разумист
ты хуисосист. Буквально пустое место которое ничто не может предложить обществу кроме пердежа, вот тебе и "похуй".
Аноним 31/08/23 Чтв 16:30:08 472371 133
Хуя у вас тут дебич-треды.

Плохо, что подделать личность? Ебать вы дауны, фальсификации сопровождали человечество всю его историю. Всерьез на такую хуйню только вы же и ведетесь. Проблема не в подделках личности, а в том, что вы на это ведетесь и сразу бегаете с факелами и вилами.
Нет цифрового следа, личность не подделать? Ебать вы дауны, вот это безопасность, небось еще в тайге живешь, скрывая тепловой след от спутников и не пользуясь интернетом? А, не, падажжи… Уже не работает.

Поржал с обеих точек зрения. Ради кала спорите, к сожалению.
Жить надо в реальности, а не в фантазиях. =)
Аноним 31/08/23 Чтв 17:11:03 472414 134
>>472367
>пук
Что сказать то хотел? Где надо, я делаю, в том числе и для двача. А ты никто и все твои деньги сопрут.
>>472371
>Уже не работает.
Бежать надо не быстрее медведя, а быстрее остальных даунов. Пока сливают данные всякой там еды, и у всех вокруг горят пердаки, я спокоен, я не заказывал еду. Пока сливают сканы паспортов очередного левого сервиса, я спокоен, я не даю никому сканы своего паспорта. И так далее.
Конечно, целевую атаку на меня можно совершить. Но я хотел бы посмотреть на ебало того, кто будет пыжиться ради моих пары сотен тысяч деревянных.
>Ради кала спорите, к сожалению.
Таки да.
Аноним 31/08/23 Чтв 18:01:55 472454 135
>>472414
Вариант с драконом и гномом мне ближе, но в общем-то да.
Аноним 31/08/23 Чтв 18:05:12 472457 136
Подскажите какую русскоязычную модель можно натренировать на собственный голос. Я нубас, но в шапке конкретно по этому инфы нет, только по тренировке для STS
Аноним 31/08/23 Чтв 18:27:11 472472 137
aivoice.webm 444Кб, 856x210, 00:00:23
856x210
Аноним 31/08/23 Чтв 18:51:52 472492 138
>>472457
Свою модель обучай, собери датасет своего голоса и тренеруй по гайду.
Аноним 31/08/23 Чтв 19:23:40 472550 139
>>472492
Какую конкретно? Или они все файнтюнятся на своем голосе?
Аноним 31/08/23 Чтв 19:28:42 472561 140
>>472550
Что какую? Ты тренируешь СВОЮ модель, используя такие решения как RVC и SVC. Потом, ты можешь использовать натренированую модель на любом аудиофайле или в реалтайме.
Аноним 31/08/23 Чтв 19:38:43 472589 141
>>472550
>Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.
Вот же в шапке написано, просто собираешь датасет своего ЧИСТОГО голоса, режешь его аудио слайсером
https://github.com/flutydeer/audio-slicer
И дальше делаешь всё по гайду.
Аноним 31/08/23 Чтв 19:43:09 472604 142
нейрокал.webm 803Кб, 832x256, 00:00:44
832x256
Аноним 31/08/23 Чтв 19:45:49 472610 143
>>472589
Так, я дурачок и не пояснил что именно я хотел. В общем мне нужен TTS, а не STS. Хотя можно, по сути закостылить так: любой TTS -> STS на нужный голос в принципе
Аноним 31/08/23 Чтв 19:51:14 472619 144
>>472610
>>472604
То есть ты хочешь также как на видриле? Тогда план такой: Делаешь tts в silero, обучаешь модель на датасете своего голоса в rvc или svc и потом генерируешь файл на основе уже полученного tts результата.
Аноним 31/08/23 Чтв 19:56:55 472630 145
>>472619
Да, я собсна так и подумал, спасибо. Просто странно что нет возможности просто обучить TTS на своем голосе, как например в елевен лабс
Аноним 31/08/23 Чтв 22:53:59 472846 146
firefoxA5cKZIGJ[...].png 93Кб, 1509x855
1509x855
Аноним 31/08/23 Чтв 23:04:55 472858 147
firefoxcv3F14xV[...].png 69Кб, 1509x855
1509x855
Аноним 01/09/23 Птн 01:52:11 473166 148
>>472846
Бывает глотает слоги, а так норм.
Аноним 01/09/23 Птн 11:32:25 473396 149
Я хочу бесплатно слушать большие тексты (статьи хотя бы), не важно каким голосом, главное чтоб интонации были правильней.
Какие есть варианты для английского, для русского?
Аноним 01/09/23 Птн 12:22:11 473416 150
Аноним 01/09/23 Птн 12:29:09 473421 151
SVC и RVC так же хороши в преобразовании речи, как и в преобразовании пения? Расскажите про взаимосвязь качества, если есть только речь и наоборот - только пение.
Аноним 01/09/23 Птн 12:29:49 473423 152
>>473396
Запусти Edge, нажми пкм по тексту. Безупречно будет читать.
Аноним 01/09/23 Птн 12:44:53 473432 153
Аноним 01/09/23 Птн 12:56:06 473441 154
Аноним 01/09/23 Птн 14:27:35 473486 155
Котаны, а есть уже войс ченжеры для дискорда?
Аноним 01/09/23 Птн 15:00:47 473506 156
Аноним 01/09/23 Птн 16:54:44 473568 157
>>473486
Я только по эту знаю, но на русском сильный акцент, но мб с норм видяхами будет лучше (у меня 1060 3гб). Скачать альфу можно у них в дискорде, в новостном канале ссылки.
https://themetavoice.xyz/#live
Аноним 01/09/23 Птн 17:01:08 473577 158
>>473421
Всё зависит от датасета, если сэмплы чистые, с большим диапазоном тембров, то любой результат(неважно пение или речь) выходит хорошим.
Аноним 01/09/23 Птн 18:26:53 473696 159
Посоны, как заставить Летова перестать шепелявить? Все "с" глотает нафиг. Речь о RVC
Аноним 01/09/23 Птн 18:44:04 473712 160
1september.mp4 17377Кб, 512x768, 00:04:07
512x768
Аноним 02/09/23 Суб 03:46:57 474061 161
Аноним 02/09/23 Суб 09:56:17 474122 162
Коллаб стал дропать сессию через 5-10 минут, у вас так же?
Прочил что у них в правилах стоит запрет на дипфейки
Аноним 02/09/23 Суб 15:02:51 474321 163
>>469769
>>469683
На английском звучит как говно роботизированное ваш силеро, я другим пользуюсь, на моей слабой видюхе (1050ti) куда лучше генерит.
Аноним 02/09/23 Суб 21:31:49 474618 164
>>471810
Так не только в "Р" дело, тем более в моем датасете джва часа бубнежа было и любых звуков достаточно. Суть в том, что база обучения нейронки на английских фонемах, сколько модель не учи всё равно будет походить на говор иностранца.
Аноним 02/09/23 Суб 21:34:40 474622 165
>>474061
Это школьник шизофреник с пораши, который своим высером все борды засрал, а сам при этом понятия не имеет что вообще такое нейросеть.
Аноним 03/09/23 Вск 23:09:15 475678 166
>>474618
Ну вот, я же то же самое сказал. Этого никак не избежать, она же звуки из датасета берёт.
Аноним 03/09/23 Вск 23:37:39 475702 167
output.mp4 4029Кб, 1080x1920, 00:00:45
1080x1920
Есть вариант как-то убрать эти щелчки? Очень бьет по ушам.
Аноним 04/09/23 Пнд 03:03:14 475809 168
Обучаю модель so-vits-svc. На одну эпоху на моей 3060ti уходит одна минута, при том что там всего 50 околопятисекундных аудиофайлов. Во вкладке производительность cuda вроде забита до завязки. В интернете нашел что у какого-то чела уходит 2 минуты на одну эпоху на 3060, при том что у него 1000 аудиофайлов. Чяднт? Может в конфиге наложал? Я там оставил все как есть только количество эпох уменьшил.
Аноним 04/09/23 Пнд 04:38:34 475821 169
>>472004
брат а где скачать RVC звуковую модель летова эту которую ты используешь?
Аноним 04/09/23 Пнд 05:36:31 475828 170
Аноним # OP 04/09/23 Пнд 06:09:18 475830 171
>>471561
> В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
Добавил в секцию "прочее". Осталось ката дождаться.

Надо будет ещё ссылок на загрузку SVC/RVC моделей добавить:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (как вариант, можно дополнительно упомянуть зеркало >>462765 )
Аноним 04/09/23 Пнд 13:13:05 476006 172
>>462629
Ясно. Сдвигаем твою позицию в очереди на воскрешение на пару миллиардов пунктов вниз.
Аноним 04/09/23 Пнд 20:56:41 476514 173
Есть текстовый гайд для альтернативно одарённых как натренить свою модельку?
Аноним 04/09/23 Пнд 21:14:39 476550 174
шмедисону читалку текста его голосом встроили прямо в старфилд. а вы говорите годных читалок нету
Аноним 05/09/23 Втр 01:16:44 476804 175
Да сука, я нихуя не понимаю. Тренил локально на своей пеке 2000 эпох целые сутки, получился пиздец, тренил в коллабе с меньшим лернинг рейтом столько же получил аудиорил (Абу гнида ни вемб ни мп4 не прикладываются) вот короче https://files.catbox.moe/bk6ro5.wav. У чела за 800 эпох получилась лучшая модель, да какого хуя? Нет, серьезно кто тренил подскажите
Аноним 05/09/23 Втр 04:00:16 476860 176
делал все по гайду с готовой моделью. получил такую ошибку в веб версии последней RVC при попытке обработать wav файл с вокалом

File "C:\RVC0813AMD_Intel\runtime\lib\site-packages\gradio\processing_utils.py", line 219, in convert_to_16_bit_wav
if data.dtype in [np.float64, np.float32, np.float16]:
AttributeError: 'NoneType' object has no attribute 'dtype'

куда копать? видюхи нет думал сделать на intel проце
Аноним 05/09/23 Втр 05:26:12 476874 177
Аноним 05/09/23 Втр 12:58:35 477048 178
>>476874
Да как? Оно такое и на 200 эпохах и на 800 эпохах, я весь путь тестил.
Аноним 05/09/23 Втр 16:04:08 477226 179
Пацаны, я понимаю, что надо читать шапку, но все же по фасту спрошу - я хочу высказать очень непопулярное мнение на ютаб и боюсь деанона по голосу, чем мне лучше переделать голос, чтоб меня нельзя было задетектить? Заранее спасибо
Аноним 05/09/23 Втр 16:33:29 477261 180
Аноним 05/09/23 Втр 20:58:14 477691 181
Славик титан од[...].webm 13061Кб, 720x1280, 00:01:55
720x1280
Аноним 05/09/23 Втр 21:00:19 477700 182
Славик =ТЕРПИТ=.webm 11543Кб, 960x1280, 00:02:19
960x1280
Аноним 06/09/23 Срд 16:47:38 478645 183
senkoglazapolzyt.mp4 27343Кб, 512x512, 00:05:18
512x512
Аноним 07/09/23 Чтв 04:13:05 479566 184
m.4f188861-b92a[...].mp4 6051Кб, 1080x1920, 00:00:45
1080x1920
Аноним 07/09/23 Чтв 13:48:33 479975 185
Посоветуйте TTS альтернативу Silero, с приемлемым качеством и возможностью запуска на своей машине (я за раз 50к - 100к символов генерю, регаться по 10 раз на сервисах заебна). Silero проглатывает английские термины, а у меня их дохуя, смысл треряеся.
Аноним 07/09/23 Чтв 14:25:41 480016 186
>>479975
Присоединяюсь к реквесту. Что сейчас актуально для локального TTS? Желательно еще гайд или описание нюансов установки если они есть.
Аноним 07/09/23 Чтв 14:38:33 480028 187
Аноним 07/09/23 Чтв 16:54:15 480089 188
don li volga.mp4 759Кб, 400x600, 00:00:11
400x600
eminem.mp4 470Кб, 400x600, 00:00:17
400x600
fastyouth.mp4 1896Кб, 400x600, 00:00:30
400x600
Аноним 07/09/23 Чтв 20:17:30 480323 189
Можете пожалуйста озвучить фразу "diss mode activation" каким нибудь негрореперским голосом
Аноним 07/09/23 Чтв 20:17:30 480324 190
Аноним 07/09/23 Чтв 20:43:47 480367 191
chirp (2).mp4 1989Кб, 400x600, 00:00:30
400x600
chirp (1).mp4 1992Кб, 400x600, 00:00:30
400x600
chirp.mp4 2167Кб, 400x600, 00:00:30
400x600
>>480324
https://www.suno.ai. Вчера вышла. Вроде 25 генераций можно всего сделать бесплатно.
Аноним 08/09/23 Птн 12:44:42 480915 192
Аноним 08/09/23 Птн 13:25:26 480950 193
>>480367
В сочетании с rvc можно нагенерить лулзов. Только rvc отвалился. Сегодня впервые решился затестить, но слегка опоздал, гугл блочит.
Киньте рабочий колаб на svc/rvc, если знаете. Еще и сд колаб вчера отвалился.
Аноним 08/09/23 Птн 16:10:06 481080 194
>>480950
На машине генерь.
Аноним 08/09/23 Птн 17:19:59 481180 195
>>479566
Будущее прекрасно.
Аноним 08/09/23 Птн 18:45:54 481287 196
>>481080
Купишь мне её, умник?
Аноним 08/09/23 Птн 19:46:16 481396 197
Кто может подсказать, уже всю голову себе изломал. Есть на ютубе канал НейроШрек, мульт который нейросеть генерит, ну там в основном всякий однообразный бред, но как там реализована озвучка? Мало того что она хуярит круглые сутки, так еще и персонажи видно говорят голосами прототипами своих героев. Если кто сможет подсказать что там используется для озвучки это будет прекрасно!!!
Аноним 08/09/23 Птн 20:53:15 481504 198
>>481287
Сам купи, это не сложно.
Аноним 09/09/23 Суб 01:41:38 481774 199
Походу пчела перешла с твинков на девинарте к твинкам в тиктоке. Только за 15 минут наткнулся на 6~7 нейросенко акков фулл забитые одинаковыми каверами, часть спизжено отсюда
Аноним 09/09/23 Суб 06:08:08 481875 200
>>471539
Зачем ты запускаешь на ос для игр?
Аноним 09/09/23 Суб 14:17:22 482154 201
Аноним 09/09/23 Суб 16:08:05 482238 202
photo2023-09-07[...].jpg 245Кб, 1280x720
1280x720
Аноним 09/09/23 Суб 16:18:34 482254 203
Google Переводч[...].mp4 7700Кб, 1920x1032, 00:00:06
1920x1032
>>482154
Оно почти всегда такое непохожее, или только в реалтайме, или мне попалась плохая модель (попробовал несколько разных)?
Аноним 09/09/23 Суб 17:07:40 482310 204
>>482254
Хуй знает, я его на свой войс накладывал. В дискорде работает, над только настроить. По крайней мере войс Соловьёва накладывается нормально. Но тут как бы есть несколько факторов, надо говорить членораздельно, нужно иметь нормальную модель голоса и иметь чуть чуть дикции. Накладывал войс тяночки, но из-за дерьмовых сурсов, нет адекватной модели, хотя школота в кс хавает.
Аноним 09/09/23 Суб 20:08:57 482678 205
Аноним 09/09/23 Суб 21:29:01 482853 206
>>482824
>Что делать?
Ебать собак, очевидно же.
Аноним 09/09/23 Суб 21:42:18 482883 207
Какие системные требования у силеро? Нужно быстро в реальном времени синтезировать небольшие куски текстов.
Аноним 09/09/23 Суб 22:13:06 482960 208
Аноним 09/09/23 Суб 23:32:51 483113 209
>>482678
похоже как раз таки на voice changer который я скидывал чуть выше
Аноним 10/09/23 Вск 06:03:24 483255 210
На Silero нельзя обучать голосу?
Аноним 10/09/23 Вск 08:25:48 483319 211
>>483255
Нельзя, точнее, код есть только из силеров.
Аноним 10/09/23 Вск 12:17:38 483508 212
>>483113
Он че, в прямом эфире может так струячить? Лол.
Осталось придумать нейронку, которая будут нормально чужие ебальники приклеивать. И можно будет творить креативы😄
Аноним 10/09/23 Вск 14:17:48 483589 213
Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись и как обучать тот голос что нужно мне? Вообще хотел бы услышать историю успеха от Сенко-анона.
Аноним 10/09/23 Вск 15:48:39 483683 214
>>483508
Там задержка в 0,5-1,5 секунд, так что считай что да
Аноним 10/09/23 Вск 23:42:53 484128 215
Где можно взять готовую модель на русском языке для этой проги?>>482154
Аноним 11/09/23 Пнд 06:43:22 484250 216
>>482238
Спасибо огромное.
Аноним 11/09/23 Пнд 10:12:42 484314 217
Мы, 22 век (2 и[...].mp4 18857Кб, 1024x1536, 00:05:00
1024x1536
Мы, 22 век (3 и[...].mp4 23309Кб, 1024x1536, 00:06:07
1024x1536
image.png 492Кб, 2006x1831
2006x1831
>>483589
> Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись
Советую в первую очередь глянуть RVC, ссылка на загрузку во втором посте треда, ничего дополнительно качать не надо - распаковываешь архив и запускаешь go-web.bat. Он меньше портит отдельные звуки в русской речи в сравнении с SVC.

Готовые RVC-модели можно скачать здесь:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (зеркало - https://huggingface.co/NeuroSenko/rvc-models/tree/main )
https://huggingface.co/juuxn/RVCModels/tree/main

> как обучать тот голос что нужно мне?
Тебе нужно собрать кусочки голоса с нужным спикером, длительностью, в идеале, от 10 до 60 минут. При этом записи должны быть разбиты на короткие файлы, каждый длиной не более десяти секунд. У меня датасет вышел на 69 минут суммарно.

Для политиков и прочих публичных деятелей датасет проще всего собрать - качаешь любой их длинный монолог и просто разбиваешь на короткие отрезки при помощи https://github.com/flutydeer/audio-slicer
Для вокалистов чуть сложнее - надо сперва убрать из всех озвученных ими песен инструментальную составляющую через https://github.com/Anjok07/ultimatevocalremovergui (UVR)

> Вообще хотел бы услышать историю успеха от Сенко-анона.
Предполагаю, что ты хочешь обучить голос на какого-то персонажа из аниме или т.п., раз решил меня напрямую спросить. Самое сложное, в этом случае, будет собрать датасет.

Во-первых, тебе придётся извлечь аудио-дорожку из каждой серии нужного тебе тайтла и удалить из неё все сторонние звуки.

Вырезать аудио из видео можно при помощи ffmpeg, я использовал такую команду:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Далее, при помощи UVR нужно убрать музыку и все сторонние звуки.

Дальше у тебя есть два варианта как нарезать всю серию на короткие отрывки именно с голосом твоего персонажа - один относительно быстрый, а другой не очень.

Быстрый способ - качаешь тулзу https://github.com/flutydeer/audio-slicer и прогоняешь дорожку тайтла через неё. В результате она тебе выдаст набор звуковых файлов, где есть какие-либо реплики. Дальше тебе надо прослушать и отфильтровать их так, чтобы в датасете остался только голос твоего персонажа. Из минусов данного подхода можно отметить то, что тулза не разбивает на отдельные треки отрывки, в которых персонажи перебивают друг-друга или между их репликами слишком маленькая пауза, так что тебе придётся либо исключить такие файлы из датасета, либо обрезать их вручную. Другой минус в том, что всякие визги и междометия будут пропускаться при дефолтных таймингах - надо либо тайминги подкручивать, либо смириться с тем, что часть звуков персонажа не попадёт в датасет.

Другой способ - ручное выделение всех реплик персонажа в Audacity, свой подход я описывал здесь >>353861 → Это займёт гораздо дольше времени, поскольку тебе, фактически, придётся весь тайтл вручную прослушать от начала и до конца (+ придётся мотать и ставить паузу, если не успеваешь выделять реплики в Audacity).

Какой-бы способ ты не выбрал, в конце у тебя будет набор коротких звуковых файлов, которые тебе надо вынести на уровень одной директории.

Дальше открываешь в RVC вкладку Train и задаёшь параметры тренировки
1. Target Sample rate - больше = лучше, ставишь 48k
2. Version - v2; первая и вторая версия использую разные базовые модели, я предполагаю, что это может сказываться на качестве. Насколько мне известно, все просто на v2 тренируют
3. Path of the train folder - нутыпонел, путь до папки с твоим датасетом
4. Total training epochs - я ставил 1000, но разницы в результате после пары сотен эпох уже не слышу. Однако, у меня не вышло переобучить эту модель, так что можно поставить значение повыше просто на всякий случай
5. Batch size - зависит от того, сколько влезет в твой GPU. Если у тебя 24GB VRAM, то просто ставь максимальное значение
6. Save only the latest '.ckpt' file - можно выставить в No, если боишься перееобучить модель, тогда можно будет глянуть младшие эпохи. Но лично мне показалось, что RVC и SVC невозможно переобучить - для того же SVC я обучал модель 40 часов на 4090, а для RVC 10 часов, и не похоже, чтобы такое длительное обучение как-либо негативно сказалось на качестве модели. Хотя, может это зависит от длительности датасета, batch size или других параметров, точно не знаю.

Дальше надо нажать кнопки по порядку как на скрине. Первые две операции займут буквально пару минут, а вот "Train model" займёт основную часть времени, так что "Train Feature Index" ты нажмёшь уже после завершения основного этапа тренировки. Есть ещё кнопка "One-click training", но она у меня не генерировала index-файл, так что советую всё же прокликать вручную на всякий. Хотя эта проблема описана в факе, там написано, что можно нажать "One Click Training" и затем "Train feature index", если он не сгенерировался. Но я не пробовал так делать.

Модель состоит либо из одного "pth" файла, либо из "pth + index" файлов. Модели с index-файлом должны работать лучше - в факе RVC расписано, что именно делает index-файл, но лично я из объяснения ничего не понял. Сами модели кидать сюда:
weights - pth-файлы
logs - index-файлы

Вроде всё расписал.

>>462457
> Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.
Спасибо, что расписал свой алгоритм действий, я про FabFilter Timeless вообще не знал.
Аноним 11/09/23 Пнд 10:42:09 484330 218
>>484314
Пасибо, Сенко-анон, ты шикарен.

>либо смириться с тем, что часть звуков персонажа
Ну да, нюансы у быстрого способа есть, с другой стороны, я эти звуки вчера выдёргивал из ВНки, хоть и навыдёргивал около 400 файликов, общая продолжительность там не шибко большая (дольше я сам проклинал япошек, что вообще все файлы с репликами идут просто по порядку их нумерации и более никак не определены, а там их 2.5к). А вот с тайтлом будут проблемы, в конце концов 24 серии + 5 полнометражек (одну можно исключить за неимением там нужного персонажа правда) придется колупать долго. Сколько ушло у тебя времени на семплирование голоса Сенки?

> 69 минут суммарно
Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?

> Какой-бы способ
Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?

Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?

Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?

Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.
Аноним 11/09/23 Пнд 10:50:34 484332 219
.png 68Кб, 674x687
674x687
>>484314
Кстати, тут какие то модели есть и прочее, что лучше использовать и как настроить, чтоб опять же сразу и хорошо было?
Аноним 11/09/23 Пнд 12:09:55 484368 220
>>484332
Если нужна хорошая вокальная дорожка, то мне больше всего зашла Kim Vocal 2.
Если разбивать партию на отдельные инструменты, то Demucs v4 — htdemucs_6s.
Но один хуй потом в Audition косяки вручную нужно править.
Аноним 11/09/23 Пнд 15:28:59 484525 221
.png 35Кб, 651x458
651x458
>>484368
Чето я нашел какой то гайд от какого то чела и обмазался им, там сразу несколько моделей используется.
Но получается не очень, т.к. появляются некоторые артефакты на полученной дорожке плюс долго, гнать многа серий тайтла - буквально заебёшься ждать. Идеальный конфиг для стирания лишних звуков из тайтлов все еще не ясен.
Аноним 11/09/23 Пнд 15:34:58 484532 222
>>484525
Плюсом появляется шум на готовой дорожке, который надо будет чистить руками во время нарезки сэмплов.
Аноним 11/09/23 Пнд 16:53:24 484619 223
Да как этот сраный RVC поставить?
Вот у них написано:
>The following commands need to be executed in the environment of Python version 3.8 or higher.
Я на 3.11 ставлю, какая-то из библиотек из указанного в requirements.txt не ставится, потому что требует, чтобы версия питона была не выше 3.11. Хорошо, специально с аура поставил себе версию 3.8, теперь дохуя библиотек не ставится, потому что требует питон 3.9 или выше.
Они хоть в своём ебучем readme могут актуальную информацию писать?

Я правда качал complete package для амуде, на который у них ссылка в релизах указана, сейчас попробую чисто через git собрать.
Аноним 11/09/23 Пнд 16:57:10 484624 224
>>484619
Та же залупа. Погромисты хуевы, ну теперь ещё себе 3.9 версию поставлю, чтобы всё пошло.
Аноним 11/09/23 Пнд 17:11:27 484649 225
.png 34Кб, 872x203
872x203
Аноним 11/09/23 Пнд 17:21:13 484664 226
>>484649
Я тебе в первом своём посте и написал, что скачал это ебаный пакет.
Аноним 11/09/23 Пнд 17:26:47 484678 227
>>484664
Да? Ну в глаза ебусь значит. 3 часа сна дело такое...
Аноним 11/09/23 Пнд 17:33:18 484696 228
А можно ли мержить несколько моделей, чтобы получить новый голос или использовать полученные модели в программах типа Synthesizer V?


>>484314
Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?
Аноним 11/09/23 Пнд 17:47:28 484744 229
656565656566565[...].webm 7633Кб, 854x480, 00:02:44
854x480
4.mp4 9332Кб, 1920x1080, 00:00:31
1920x1080
4554545454.mp4 19453Кб, 1280x720, 00:00:53
1280x720
3.mp4 5642Кб, 912x720, 00:00:34
912x720
Аноним 11/09/23 Пнд 17:47:59 484746 230
.png 35Кб, 554x124
554x124
Вроде с питоном 3.9 дело пока идёт, только вот один пакет не ставится, потому что он только под WSL и винду есть... Посмотрим как пойдёт.
Это мем, кстати, такой или он реально CPU юзать вместо амуде будет? Нахуй я эту версию тогда ставил?
Аноним 11/09/23 Пнд 17:53:13 484767 231
>>484696
> Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?
Никакой текст с расшифровкой не нужен. Для датасета тебе нужен только голос.
Аноним 11/09/23 Пнд 18:03:08 484775 232
>>484746
Видюху оно похоже мне не юзает... Нахуй так жить?
Аноним 11/09/23 Пнд 18:16:27 484789 233
Аноним 11/09/23 Пнд 18:23:32 484795 234
>>484775
>тыква вместо видеокарты
Да, нахуй так жить?
Аноним 11/09/23 Пнд 18:24:06 484796 235
>>484795
Ой, иди нахуй, любитель невидии.
Аноним 11/09/23 Пнд 18:25:47 484800 236
ЁБАНЫЙ ЗВУК ЦИКАД БЛЯДЬ НЕ ВЫЧИСТИЛСЯ ЕБАНЫЕ КИТАЙСКИЕ КУЗНЕЧИКИ БЛЯДЬ
Аноним 11/09/23 Пнд 18:48:02 484833 237
.mp4 3776Кб, 640x360, 00:00:39
640x360
Аноним 11/09/23 Пнд 18:48:37 484834 238
>>484796
УМВР, в отличии от.
Аноним 11/09/23 Пнд 19:19:03 484881 239
>>484833
Слава Богу что камнями завалило... Одним быдлом и убийцей меньше! Сколько он убил людей в этом фильме... Господь всемогущий.
Аноним 11/09/23 Пнд 19:26:18 484888 240
>>484744
>>484833
Как вы мимику подгоняете под аудиодорожку?
Аноним 11/09/23 Пнд 19:30:07 484894 241
>>484128
Найти скачать, затрейнить на RVC
Аноним 11/09/23 Пнд 19:30:12 484895 242
Аноним 11/09/23 Пнд 19:32:53 484898 243
Аноним 11/09/23 Пнд 19:34:24 484900 244
Аноним 11/09/23 Пнд 20:41:38 484987 245
video5467649897[...].mp4 9524Кб, 1280x720, 00:00:50
1280x720
Аноним 11/09/23 Пнд 20:49:56 484994 246
>>484894
А англоязычные модели не подходят для того, чтобы болтать на русском? То есть искать можно только то, что тренили на русской речи?
Аноним 11/09/23 Пнд 21:26:21 485055 247
>>484767
Найс;3
Ушел нарезать эпизоды аниме на реплики
Аноним 11/09/23 Пнд 21:39:24 485085 248
16189336491940 [...].mp4 5193Кб, 960x720, 00:00:41
960x720
Аноним 11/09/23 Пнд 21:46:13 485090 249
>>484895
>>484987
>>484833
Охуеть. Доработать напильником и можно игры и фильмы оригинальным голосом переводить.
Аноним 11/09/23 Пнд 21:53:07 485106 250
image.png 17Кб, 438x117
438x117
image.png 27Кб, 375x352
375x352
>>484895
1. Оно только платное
2. Из РФ оплатить нельзя
3. За 50 баксов в месяц можно сделать не более чем 30 минут видео суммарно

Я ничего не упустил?
Аноним 11/09/23 Пнд 21:54:27 485108 251
Аноним 11/09/23 Пнд 22:06:45 485132 252
Окей, я скачал озвучку, а там .mka и 3 стереодорожки.. Их надо просто объединить по каналам и норм?
Аноним 12/09/23 Втр 02:51:10 485428 253
VID202309120118[...].mp4 3833Кб, 1280x720, 00:00:30
1280x720
Аноним 12/09/23 Втр 13:08:03 485739 254
>>484744
С туалетным патриотом хуевато получилось
Аноним 12/09/23 Втр 13:29:21 485751 255
>>484987
Прямо сейчас вполне реально запилить голосом Гоблина пасту про Сталин-3000.
Аноним 12/09/23 Втр 14:37:16 485819 256
Как смотреть эти ваши лосы при обучении на графике?
Аноним 12/09/23 Втр 15:09:36 485890 257
Не знаю тот ли тред, балуюсь сейчас с реалтаймом, жрёт она обычные RVC, юзаю фор лулз, а именно тролю пиво в доте. Где брать модели? Желательно русские. Ну и за одно, есть ли способ уже готовую RVC модель как-то надрочить на свой голос, потому что риалтайм жрёт буквы, шепелявит, и тд.
Аноним 12/09/23 Втр 15:23:09 485904 258
>>461500 (OP)
Почему зеленого слоника до сих пор нет? Вы что охуели?
Аноним 12/09/23 Втр 15:32:54 485917 259
.png 14Кб, 1200x1594
1200x1594
Аноним 12/09/23 Втр 15:42:37 485931 260
Аноним 12/09/23 Втр 15:51:22 485939 261
Аноним 12/09/23 Втр 15:53:42 485946 262
image.png 318Кб, 1591x950
1591x950
Что эта пидорасина от меня хочет?
Аноним 12/09/23 Втр 15:55:44 485953 263
>>485946
Перемести UVR в папку, где в пути нет русских символов
Аноним 12/09/23 Втр 15:58:07 485959 264
>>485946
Юникоду больше 30 лет, а программисты-пидарасы до сих пор обсираются с любых символов, отличных от латиницы.
Аноним 12/09/23 Втр 15:58:26 485961 265
>>485953
Спасибо, помогло.
Аноним 12/09/23 Втр 16:02:50 485970 266
.png 195Кб, 1773x1086
1773x1086
Кто тут может расшифровать?
Аноним 12/09/23 Втр 17:27:27 486134 267
>>486076
Хз сможешь ли индекс-файл сформировать после этого, хотя не должно быть проблем наверное.
Аноним 12/09/23 Втр 17:34:16 486145 268
>>485970
Это so-vits ? У меня при тренировке loss/d/total и другие пидорасит туда-сюда ебаным ежом, хотя у большинства я вижу, что они плавно опускаются. Где я обосрался и важно ли это ?
Аноним 12/09/23 Втр 17:45:24 486169 269
>>486145
Не, это RVC. А в градио просто Smoothing включено, чтоб сглаживало.
>и важно ли это ?
А хз че там и как прально оно интерпретируется, я просто на график смотрю и вроде как главное чтобы пониже и по ровнее.
Аноним 12/09/23 Втр 19:06:09 486250 270
Посоветуйте софт, чтоб с выражением и без багов зачитывал длинные технические и новостные статьи. Если есть приложение или возможность встроить движок в android, то вообще отлично
Аноним 12/09/23 Втр 21:37:52 486402 271
4еп34п4пп4ы.mp4 13032Кб, 1280x720, 00:00:47
1280x720
Аноним 12/09/23 Втр 21:40:04 486403 272
Что будет, если я замержу модели с озвучкой на разных языках?
Аноним 12/09/23 Втр 22:25:53 486436 273
Аноним 13/09/23 Срд 00:02:05 486522 274
Есть смысл запускать на локалке этот риалтайм модулятор голоса, если только 2гб врам? Пробовал уже кто-то? Тестанул на колабе, но не пробовал в войсе, вдруг оно не будет выводить поток в дискорд/игры.
Аноним 13/09/23 Срд 00:16:51 486541 275
>>486522
на 6 гигах нет смысла
Аноним 13/09/23 Срд 03:55:11 486684 276
.png 44Кб, 1240x581
1240x581
Пиздаускас чот
Аноним 13/09/23 Срд 04:39:31 486703 277
>>486436
Тролю пиво в доте, в текущих реалиях всё сильно зависит от твоего изначального голоса и модели. С моим голосом и тянской моделью, а я пробовал дохуя, алинарин, диспимяу, клава кока, ева элфи, эвелинушка, оляша, и тд думают что я либо школьник, причем такой знаешь, с эффектом Богданчика валакаса, либо всё таки тянучка.
Аноним 13/09/23 Срд 06:33:04 486743 278
Можете кто-нибудь речь майора Монтаны про войну переговорить голосом Охлобыстина?
Аноним 13/09/23 Срд 09:11:38 486800 279
.mp4 19122Кб, 1024x1536, 00:03:59
1024x1536
Хмм, ну получилось как то так. Больше того с эхом пердолился.
Аноним 13/09/23 Срд 09:26:32 486802 280
>>486800
Ебало этого шиза сгенерировали? Сейчас ведь еще и в /б унесет и в тикток зальет.
Аноним 13/09/23 Срд 09:28:30 486803 281
>>486802
> Сейчас ведь еще и в /б унесет и в тикток зальет.
Ты ебанутый?
Аноним 13/09/23 Срд 09:50:53 486812 282
.mp4 7955Кб, 1024x1536, 00:02:19
1024x1536
Аноним 13/09/23 Срд 11:11:42 486873 283
аноны, я ньюфаг, как свой нейро-войсбанк натренить чтоб нейрокаверы делать
Аноним 13/09/23 Срд 14:21:17 487050 284
>>486983
Ты на голосовухах своего отчима что ли обучал?
Аноним 13/09/23 Срд 15:00:51 487085 285
bark (1).mp4 175Кб, 1000x200, 00:00:15
1000x200
>Okay, I see. [fart burp] There will be no peace treaty... [laughs] until I finish this song [hysteric laughter] [halts] [whistles a song]
Аноним 13/09/23 Срд 16:26:46 487211 286
У меня на 100ой эпохе выпало в синий экран. Как дотренировать модель?
Аноним 13/09/23 Срд 17:16:43 487298 287
.mp4 6827Кб, 1024x1536, 00:01:50
1024x1536
Аноним 13/09/23 Срд 18:02:09 487388 288
.mp4 6780Кб, 1024x1536, 00:01:45
1024x1536
Аноним 13/09/23 Срд 18:04:55 487395 289
Этот сруля и сюда добрался...
Аноним 13/09/23 Срд 18:06:00 487397 290
>>487395
О себе в третьем лице.
Аноним 13/09/23 Срд 18:06:41 487399 291
>>487395
Зачем же ты сюда добрался, сруля?
Аноним 13/09/23 Срд 18:41:10 487457 292
>>487388
На каком картавом пятикласснике ты это тренировал?
Аноним 13/09/23 Срд 18:58:38 487485 293
>>487457
Голос Аски из GOS2, какой то дрочильни мибильной + из тайтла и ЕоЕ.
Аноним 13/09/23 Срд 19:23:21 487512 294
>>487485
Они оба японские?
Аноним 13/09/23 Срд 19:24:51 487516 295
>>487512
Да, всё японское.
Аноним 13/09/23 Срд 19:29:57 487523 296
Подскажите нубу какой лучший разделить вокала и минуса
Аноним 13/09/23 Срд 21:35:07 487692 297
Аноним 13/09/23 Срд 21:37:16 487696 298
>>487692
А с каким режимом\моделью?
мимоанон
Аноним 13/09/23 Срд 21:56:24 487730 299
.mp4 8329Кб, 1024x1536, 00:02:16
1024x1536
Аноним 13/09/23 Срд 22:04:41 487748 300
.png 20Кб, 664x196
664x196
Аноним 13/09/23 Срд 22:24:40 487778 301
>>487748
Попробую. А где взять модели справа? У меня в менюшке их нет
Аноним 13/09/23 Срд 22:29:50 487786 302
.png 24Кб, 532x510
532x510
>>487778
В настройках там центр загрузок
Аноним 13/09/23 Срд 22:53:33 487807 303
.mp4 10928Кб, 1024x1536, 00:02:23
1024x1536
Аноним 13/09/23 Срд 23:21:27 487829 304
Аноним 14/09/23 Чтв 10:46:44 488112 305
>>487211
Насколько я помню, если вводишь тот же самый "experiment name" во вкладке Train, он будет дотренировывать последнюю сохранённую эпоху, а не начинать всё по новой. Хотя я может с SVC путаю, надо тестить.
Аноним 14/09/23 Чтв 13:34:32 488231 306
doratest.webm 297Кб, 360x240, 00:00:17
360x240
>>488112
Спасиб, пока решил заново начать тренить расширив датасет.
Алсо могу посоветовать Davinci Studio для дополнительной очистки голоса от шумов, там свой нейронный движок.
Аноним 14/09/23 Чтв 15:21:59 488328 307
Аноним 14/09/23 Чтв 19:00:52 488501 308
1654970495233.mp4 4818Кб, 734x716, 00:02:44
734x716
>>431750 →
Been awhile huh?
> В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32
Версия ффмпега. У меня тоже на старой от 2020 года так работало, как то связано с фреймрейтом, чем больше - тем меньше бесполезных секунд будет добавлено в конце. Короче просто обнови версию локального ффмпега.
> правда оно срать temp файлами в корень проекта будет
Переделал короче чуть код, фреймрейт сбавил до 2, чтобы размер файла не был таким большим на выходе, ведь это же просто статическая картинка. Ну и плюёт теперь не в основную директорию проекта, а по соответствующим папкам out_audio, out_video, которые вообщем то стоит заранее создать. https://textbin.net/1bxz3nzn2z вообщем то только ванклик инсталлера-запускаллера не хватает, чтобы любой мог особо не запариваясь включить это дело сразу.

Бтв аноны, попробуйте кто то разделить эту песню на вокал и инструменталку https://files.catbox.moe/3xi1fd.flac я уже почти все модели в UVR перепробовал, но затяжные "няяя" как на 1:35 вообще не хотят отделяться.
Аноним 14/09/23 Чтв 22:31:17 488721 309
в какое-то поганое время мы живём, если так подумать

со временем нейросеть наверное заберёт большую часть чистой работы, люди почему-то про кодинги думают, на самом деле в первую очередь она заберёт не кодинг а скорее всего работу разных секретарей, юристов, экономистов, аналитиков, короче практически всю офисную работу, потом наверное придёт за кодерами, людям останется только самая грязная физическая работа т.к. это дешевле чем делать роботов, надеюсь я к тому времени выплачу ипотеку лол

пока же она просто забирает удовольствие от хобби, я например вокалом увлекаюсь, смотреть что может сетка, скажем так это убирает желание пытаться стать лучше, по-моему ещё хуже чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно
Аноним 14/09/23 Чтв 23:02:26 488758 310
TZCh3.mp4 51154Кб, 500x256, 00:22:59
500x256
>>488721
>короче практически всю офисную работу
Только выйграем! Человечество наконец перестанет получать деньги за просиживание жопы и начнё физически развиваться, избавим потомков от гена гемороя.
>людям останется только самая грязная физическая работа
Если человечество будет занято только грязной работой - мы быстро найдём способ как её обелить/избежать.
>пока же она просто забирает удовольствие от хобби
Это как? Мне как нравилось чем-то заниматься - так и нравиться, даже если это прямо пересекается с нейронками. Наоборот они даже подогревают интерес и стимулируют развиваться что-бы всё ещё выдавать результат качественнее их.
>я например вокалом увлекаюсь
Пруфы пример.
>так это убирает желание пытаться стать лучше
Ты лайкозависимый? Как одно к другому относиться?
Вот есть кузнецы/васяны ёпта да? И что-то заводы по штамповке ножей, например, не ломают им кайф от ковки каких-нибудь ножичков.
Прям как видрил...
Аноним 14/09/23 Чтв 23:53:45 488797 311
>>488721
>просто забирает удовольствие от хобби
каким образом?
>это убирает желание пытаться стать лучше
чел, как вот эту лору для сд объяснишь https://civitai.com/models/106609/sketch-anime-pose?modelVersionId=114508? Она помогает с понимание поз, разбивая все элементы тела на составные части и по итогу можешь активно развиваться
>чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно
Может стоит хоть иногда выходить дальше t2i? Неиронично, многие художники на своих же лорах рисуют арты и плюс могут дальше оттачивать навык
>короче практически всю офисную работу, потом наверное придёт за кодерами
за нми придут раньше, можно сказать уже сейчас пришли с чатгпт 4.
И да, виноваты не нейронки, а наше общество хоть оно и отражает нашу природу
Аноним 15/09/23 Птн 00:09:30 488803 312
resultvoice (2).mp4 4176Кб, 1920x1080, 00:00:28
1920x1080
Аноним 15/09/23 Птн 00:15:53 488806 313
>>488721
>>488758
>>488797
Пиздуйте со своими обсуждениями в специализированные треды.
Аноним 15/09/23 Птн 00:23:47 488808 314
>>488806
>обсуждениями
на реддит что-ли? ибо тут нет таких
Аноним 15/09/23 Птн 00:34:14 488815 315
>>488806
опять шизовахтер проснулся
Аноним 15/09/23 Птн 00:42:22 488822 316
Аноним 15/09/23 Птн 01:25:35 488860 317
Где можно Пригожина опробывать?
Аноним 15/09/23 Птн 02:17:46 488886 318
>>488860
Думаю на кладбище самое оно, а что?
Аноним 15/09/23 Птн 04:02:53 488914 319
firefoxZzL1Q7RM[...].png 102Кб, 1376x944
1376x944
Аноним 15/09/23 Птн 23:05:47 490050 320
>>488914
Работает как говно. У меня rvc в самый первый раз в разы лучше справился
Аноним 16/09/23 Суб 18:10:24 490763 321
А есть ли инфа как натренить свою модель или лору к чему то существующему? Просто хочу голос чела из игры сделать, но не знаю как тренить, а в шапке гайд не вижу.
Аноним 16/09/23 Суб 20:08:08 490890 322
image.png 71Кб, 305x165
305x165
Маршалла
Есть у кого модель Муцураева?
Аноним 17/09/23 Вск 00:55:39 491122 323
Когда там уже подгонят сервис по начитке книг? Читать времени нет, а столько бы всего хотелось, чего кожаные мешки не озвучивают.
Аноним 17/09/23 Вск 01:30:18 491130 324
>>491122
Литрес же, нет? А так сервис задушат копирайтом, надо покупать лицензии на озвучку
Аноним 17/09/23 Вск 17:07:22 491667 325
>>484314
обязательное условие разбивать на аудио на 10 секунд?
Аноним 17/09/23 Вск 18:09:54 491704 326
1$$enko.mp4 17464Кб, 512x768, 00:03:53
512x768
Аноним 17/09/23 Вск 18:28:36 491723 327
Its over.png 95Кб, 1036x486
1036x486
It's over?
Нищуки теперь в пролёте?
Аноним 17/09/23 Вск 18:35:37 491728 328
Аноним 17/09/23 Вск 19:43:24 491835 329
>>491728
На прошлых выходных не трогал, по будням не до этого, после работы нейромантить вообще не охота.
Что делать-то? На обходы есть смысл надеяться, или искать покупателя почки?
Аноним 17/09/23 Вск 19:47:13 491840 330
>>491835
За почку уже тупо видеокарточку не купишь, не говоря о остальном компе для вывоза этой самой видюхи.
Готовь бабкину квартиру.
Аноним 17/09/23 Вск 19:56:44 491851 331
>>461500 (OP)
Вчера пытался прикрутить Silero к силли таверне. Сегодня вспоминаю об этом, как о тягостном кошмарном сне. Что за маньяк разработчик, у которого хватает энтузиазма и энергии на то, чтобы размещать одни и те же примеры кода на множестве ресурсов, но при этом, по видимому, нет желания, чтобы все это могли применить на практике простые смертные. То же касается в принципе и silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство.
В итоге я смог-таки генерировать тексты по несколько десятков слов через файлик, в которые эти тексты надо каждый раз заносить. К силли таверне тоже вроде номинально подключил, но, во-первых, silero-api-server накачал английских файлов типа en_117.wav, во-вторых, хотя таверна их якобы видит, ни хрена не озвучивается.
Есть у кого-то из анонов опыт взаимодействия с этим кошмарным сновидением? Как в конце концов заставить silero-api-server взять русский голос и начать функционировать в таверне?
Аноним 18/09/23 Пнд 00:13:14 492222 332
>>491840
собирай на зеоне и ставь карту уровня 3060, зеон её затащит спокойно. Блок питания купишь голдовый и все, хули там собирать то?
Аноним 18/09/23 Пнд 10:23:34 492332 333
>>491723
Ебашь без градио, это тот ещё раковый интерфейс. В отличии от картинок аудио само по себе в калЛабе не запрещено.
>>491851
>silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство
Лол, это буквально так и есть, люди зарабатывают на интеграции своего говна.
Аноним 18/09/23 Пнд 12:39:54 492420 334
>>492332
Я заставил таки это говно работать. Если кому в дальнейшем поможет, там все через жопу:
1) надо вручную скачать файл v4_ru.pt или другой приглянувшийся отсюда: https://models.silero.ai/models/tts
2) переименовать его в model.pt и положить в корневую папку, но не silero_api_server (который выходит вообще не нужен), а SillyTavern-extras
3) запускаем в директории SillyTavern-extras server.py --enable-modules=silero-tts
4) тут же появляются файлы с русскими голосами и в таверне можно включить озвучку.
Аноним 18/09/23 Пнд 13:52:33 492477 335
>>492222
И нахер мне шило на мыло менять? Если брать - то уж хорошее.
Аноним 18/09/23 Пнд 13:53:48 492479 336
Судя по количеству ИИ каверов на ТыТрубе и этому треду, качество переделки озвучки в озвучку вполне неплохое, но вот качество озвучивания текста до сих пор оставляет желать лучшего по сравнению с тем же Elevenlabs полугодовалой давности. Тогда появляется закономерный вопрос: почему не использовать какой-нибудь edge-tts (https://edgetts.github.io/) для генерации хорошего "базового" семпла, а затем прогнать его через локальную переделку озвучки в озвучку (которая вроде как настолько быстрая, что делается в реалтайме)? Если кому не лень, может кто-нибудь сравнить озвучивание текста "Alright, how about this one? Why did the tomato turn red? Because it saw the salad dressing!" напрямую и переделку этого же текста, озвученного edge-tts (https://files.catbox.moe/vorktm.mp3)?
Аноним 18/09/23 Пнд 14:00:45 492493 337
>>492477
Хули ты тогда выебываешься? Если у тебя такая сборка, нахуй тебе еще чета?
Аноним 18/09/23 Пнд 14:28:49 492520 338
image.png 39Кб, 497x422
497x422
Пацаны есть опенсорсное решение с переводом голоса на другой язык + липсинг. Опробовал тестовый видос с работы в labs.heygen.com, результат охуенный, но цены пиздос.
Аноним 18/09/23 Пнд 22:13:53 493073 339
Аноним 18/09/23 Пнд 22:51:52 493126 340
.png 5252Кб, 3124x1903
3124x1903
.png 3657Кб, 3129x1903
3129x1903
>>484330
> Сколько ушло у тебя времени на семплирование голоса Сенки?
Очень много, т.к. я понятия не имел, как эффективно нарезку делать и тот же audio-slicer не использовал. Пока со всем разобрался, нарезал семплы, и дважды прослушал весь датасет, ушло около ~12-15 часов на 12-серийник. Но сейчас я бы это уже гораздо быстрее сделал. Тогда я только первые пару серий часа три нарезал, так как не знал, как это делать эффективно.

> Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?
Я датасет кинул в плеер foobar2000, он показывает суммарную длительность всех треков в плейлисте.

> Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?
Ручками всё нарезал.

> Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?
RVC поддерживает любой формат аудио, который распознаётся ffmpeg:
> Since ffmpeg is used internally for reading audio, if the extension is supported by ffmpeg, it will be read automatically.

> Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?
Даже не знаю, я такие эксперименты проводить не пробовал с компиляцией нескольких спикеров в один датасет. Ну, японоязычная RVC модель букву Р выговаривает и каких-то прям явных косяков по акценту я не заметил, так что, как мне кажется, нет особого смысла миксовать https://vocaroo.com/11Qmpc6eMVaG

> Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.
RVC это более новая система; под SVC модели сейчас никто не тренирует по факту. Чтобы не быть голословным, прикреплю список с последними загруженными модели в комьюнити AI Hub в дискорде. За последние 10 часов загрузили 24 RVC v2 модели, а последняя SVC модель была загружена более месяца назад.

Какой же я слоу.
Аноним 19/09/23 Втр 08:48:38 493344 341
>>493126
>под SVC модели сейчас никто не тренирует по факту
Просто под RVC софт более вменяемый.
Аноним 19/09/23 Втр 11:54:18 493423 342
>>493126
Что это за сайт? Не смог найти даже цитируя неотхешированные названия моделей.
Аноним 19/09/23 Втр 13:35:55 493471 343
>>493423
Дискорд сервер AI Hub.
мимо
Аноним 19/09/23 Втр 16:50:18 493552 344
изображение.png 15Кб, 296x218
296x218
Снимок экрана 2[...].png 52Кб, 1106x591
1106x591
Привет анон, я в звуковых нейронках совсем щегол, треды ваши не читал. Мне в соседнем треде накидали гайдов для Mangio RVC.
Умоляю, подскажите, как фиксить no-feature-todo/no-f0-todo??? Звуковые файлы в wav, в зип архиве, лежат в папке datasets. Путь правильный указан, пробелов лишних нет, кириллицы нет. Дайте хоть какую-нибудь идею, как фиксить. Я уже совсем отчаялся.
Аноним 19/09/23 Втр 19:22:57 493790 345
1637996968538.png 23Кб, 1016x214
1016x214
>>488501
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
Спасибо за фиксы. К сожалению, команда на конвертацию из картинки+аудио в видео работает неправильно на HF, поскольку там используется старый ffmpeg 5 версии. Там стоит Debian и я не нашёл какого-то простого варианта, как обновить ffmpeg до 6, чтобы исправить эту проблему. Так что эту комаду пришлось откатить. Надо по хорошему подобрать команду, которая и на ffmpeg 5 для Debian и на ffmpeg 6 для Windows будет срабатывать одинаково, но у меня пока не вышло с этим разобраться; всю платину с первой страницы гугла и SO перепробовал.

Все остальные фиксы принял. Так же добавил install.bat и start.bat скрипты для windows (которые через venv всё ставят, естественно), чтобы проще поднять локально было.

https://huggingface.co/spaces/NeuroSenko/tts-silero
Алсо добавил эти же install/start скрипты для tts-silero репы, вместе с фичей, что все сгенерированные файлы кладутся в отдельную директорию out_audio. Но там мне надо в первую очередь разобраться, почему другие модели, кроме стандартной русскоязычной, отказываются работать. Всё никак времени не могу на это выделить.
Аноним 19/09/23 Втр 20:35:26 493905 346
image.png 77Кб, 929x777
929x777
аноны, решил побаловаться тут sts на гугл коллабе,но он выдает вот такую вот ошибочку, как фиксить?
Аноним 19/09/23 Втр 21:00:38 493940 347
image.png 6Кб, 453x61
453x61
Аноним 19/09/23 Втр 21:01:36 493943 348
Товарищи, я тут как дурачок задам тупой вопрос:

Есть что то лучше, чем silero? Что бы без танцев бубнами, в онлайне (или так же в телеграмме) можно было озвучивать текста или переозвучивать уже готовое?
Аноним 19/09/23 Втр 21:13:05 493963 349
>>493552
Так короче спасибо за неответы, я сам разобрался. Теперь вопрос, есть какой-то норм форк или чо угодно, чтобы мангио могла в текст ту спич, а не только в конвертацию аудио? Или тут Mangio никто не пользуется?
Аноним 19/09/23 Втр 21:17:05 493970 350
>>493940
Там спрашивается как фиксить это, используя try/except, то есть для написанного тобою кода, а тут уже, простите меня не мой код
Аноним 20/09/23 Срд 15:28:01 494574 351
>>461500 (OP)
https://youtu.be/dcP50p-I6BE
С помощью чего это создавалось?
Пиздец, для хуйдожников со стаблем дефьюжен куча ресурсов сущесвует, а для голосовухи хуй да нихуя.
Аноним 20/09/23 Срд 20:21:01 494868 352
Whisper работает, но видеокарта не загружена (наверное, поэтому очень медленно расшифровывает). Как можно подключить видеокарту к процессу? Или он только на ЦП может работать?
Аноним 20/09/23 Срд 21:01:32 494914 353
>>494868
Тебе нужно торчи переустановить на кудовские.
Аноним 21/09/23 Чтв 21:02:50 496026 354
>>494574
Неплохой канал, спасибо что доставил, анон, даже не ожидал что бразильские макаки из фавел такое умеют.
Аноним 22/09/23 Птн 04:28:32 496491 355
chirpf.mp4 2552Кб, 400x600, 00:01:37
400x600
Чому ещё нет? Делаем песенки с помощью Suno AI, гуглите, там бот в дрискорде.

-пишем /chirp
-пишем нужный жанр
-придумываем/гуглим текст
-???
-ВСЁ
Аноним 22/09/23 Птн 06:47:36 496511 356
>>484895
Загрузил видос, смотрю, очередь 73 200. Думаю, ладно, завтра зайду. Сегодня захожу - 73 100. Получается очередь на два года. Охуенно
Аноним 22/09/23 Птн 12:03:24 496711 357
chirp (3).mp4 1628Кб, 400x600, 00:01:00
400x600
chirp (2) (2).mp4 3334Кб, 400x600, 00:01:59
400x600
chirp.mp4 2044Кб, 400x600, 00:00:30
400x600
chirp (2).mp4 2683Кб, 400x600, 00:00:36
400x600
>>496491
Было и тут, и в аудио треде. Почему-то никого не интересует музыка. Сам удивлен. Оно еще и само текст через гпт-4 генерит, если лень придумывать рифмы (на английском).
Аноним 22/09/23 Птн 12:41:49 496736 358
база от сенко.mp4 9542Кб, 1280x720, 00:00:13
1280x720
Аноним 22/09/23 Птн 13:32:21 496788 359
chirp (1).mp4 2307Кб, 400x600, 00:00:30
400x600
chirp (2).mp4 2076Кб, 400x600, 00:00:29
400x600
chirp (3).mp4 1532Кб, 400x600, 00:00:22
400x600
chirp.mp4 3480Кб, 400x600, 00:00:40
400x600
>>496711
Спасибо. Давно хотел записать свой реп альбом.
Аноним 23/09/23 Суб 08:29:52 497752 360
Аноны, подскажите
Обучил модель RVC (mangio) v2 на 20 минутах аудиодорожек. Эпох поставил 1024. Часа 3 всё заняло и последние версии модели (от 1000 эпохи) получились не очень в отличии от 800-900. Делал по тупогайдам на форуме и ютубе. К сожалению, мало кто не использует колаб.
Вопрос: как дообучать модель? Видел, что нужно в Train просто написать то же название. Это так? И выбирать название какой-либо недотренированной нужно, если она звучит лучше?
Вопрос 2: в чем может быть причина того, что в 1000х эпочах хуже поёт, чем в 800-900?
И сколько стоит сохранений ставить, чтобы не получать 10000 файлов с промежуточными результатами?
я не шарю почти
Аноним 23/09/23 Суб 08:31:51 497753 361
>>484994
Будет не так хорошо, как на родном языке, так как в разных языках разные сочетания звуков. Также, например, чистый звук Ы отсутствует в английском
Аноним 23/09/23 Суб 08:36:46 497755 362
>>493963
Я пользуюсь. Но, видимо, никто не отвечает тут. А тред по RVC я не нашёл слепой
Накатал пост чуть выше с вопросами
> файлы в wav, в зип архиве, лежат в папке datasets
Ты файлы из прива вытащил просто? У меня эта проблема так фиксилась
> могла в текст ту спич
Оно разве не может в ТТС?
Аноним 23/09/23 Суб 14:10:30 497967 363
Neuro.webm 20266Кб, 1280x720, 00:01:05
1280x720
Кто знает какие нейронки юзает Ведал?
Аноним 23/09/23 Суб 17:00:47 498091 364
Аноним 23/09/23 Суб 17:02:25 498093 365
>>498091
Ты ссылку на модель забыл.
Аноним 23/09/23 Суб 17:39:02 498130 366
>>498093
Вот же, уже 3 месяца лежит https://huggingface.co/SerCe/tortoise-tts-ruslan/tree/main/model
Если лоли голос с вокарушки интересует, то это я уже сверху пару книжек накатил поверх этой модели и еще датасет с детским голосом.
К сожалению Tortoise какого-то хуя пидорасит тональность, поэтому все равно приходится правитьpitch вручную.
https://gofile.io/d/4u0mIL
Аноним 23/09/23 Суб 18:09:07 498192 367
>>498130
>сверху пару книжек накатил поверх этой модели
>the model is suitable for further finetuning on any Russian male voice
Кек.
Аноним 23/09/23 Суб 18:35:05 498235 368
>>498192
> male
Поэтому и накатил пару книг с женскими голосами.
К тому же у меня они уже были нарезаны для тренировки, ибо я до этого уже пытался сам тренить на русский язык.
Аноним 23/09/23 Суб 18:47:12 498252 369
изображение.png 1Кб, 123x55
123x55
>>498235
И в итоге тренировка от кабанчика на большом (наверное, не смотрел) русском датасете + немного женского оказалась лучше, чем твои предыдущие попытки?
Кстати, залил бы модель на huggingface, а то все эти классные обменники дают классную скорость.
Аноним 23/09/23 Суб 21:58:31 498434 370
Аноним 23/09/23 Суб 23:25:45 498495 371
>>461500 (OP)
Аноны есть у кого опыт с STS. А именно с этим проектом

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Вот ссылка на репу https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Кто нибудь менял голоса с помощью него?

Вопрос какая видеокарта нужна? Также я сейчас не дома где компьютер и у меня нет видеокарты. Сколько дней нужно допустим если использовать ядра процессора? Я охуею? если дня два то ок.

Буду благодарен за ответы.
Аноним 24/09/23 Вск 10:32:32 498708 372
>>498495
там вроде нужна видюха в любом случае. с телефона только гугл каллаб в помощь
Аноним 24/09/23 Вск 11:23:06 498724 373
>>498252
У меня видяха слабая, так что я скармливал этой хуерге по тыще файлов в день на коллабе.
Очень медленный и малоэффективный процесс, так что я в итоге заебался и забил.
На тот момент было не так уж и плохо, но конечно хуже чем у кобанчика, да.
> залил бы модель на huggingface
Не получается, виснет часами на статусе заливки.
https://voca.ro/14ITAX3Tn2KH
Аноним 24/09/23 Вск 12:26:12 498744 374
chirp-25.mp4 1703Кб, 400x600, 00:00:23
400x600
chirp-2.mp4 3091Кб, 400x600, 00:00:38
400x600
chirp-24.mp4 2351Кб, 400x600, 00:00:35
400x600
Нейросеть кайф
Аноним 24/09/23 Вск 14:26:24 498790 375
>>498724
> Не получается, виснет часами на статусе заливки.
Через другой браузер попробуй залить. У меня такая же проблема была.
Аноним 24/09/23 Вск 15:45:54 498847 376
>>498724
>Не получается, виснет часами на статусе заливки.
Могу за тебя залить, у меня проблем с интернетом нет.
Аноним 24/09/23 Вск 15:51:20 498853 377
Аноним 24/09/23 Вск 18:34:44 499025 378
>>484987
Анонче, озвучь эту пасту голосом гоблача плезки

The other day, on the advice of trusted comrades, I purchased a new mega-device - the Stalin-3000 anal plug. Immediately, choking with greed, he opened the box with his tenacious paws and used the megadevice. Size, my respects. Joseph Vissarionovich was a real lump. Even my ass, accustomed to the harsh everyday life of the army, refused to accept it from the first try. Together with Oleg Zotov, we resolved the problem. Feelings - ATAS. There is no comparison with a machine gun. In addition, the mustache tickles the prostate pleasantly. I went on like this all day. Decidedly ready to film new non-spirituality.
Many children will see manifestations of homosexuality here. Stupid children don’t realize that pederasty and patriotism are two different things.
The device is excellent, I recommend it to everyone to purchase.
Аноним 24/09/23 Вск 19:42:31 499082 379
>>498708
Nvidia Geforce GTX 1650 норм?
Аноним 24/09/23 Вск 21:10:25 499162 380
Аноним 24/09/23 Вск 22:38:37 499240 381
По поводу готовых моделей для RVC, у всех моделей 2 файла, pth и index, и если с pth всё понятно, кидаем в папку weights, то что за файл index? Куда его? Вроде и без него всё работает
Аноним 25/09/23 Пнд 01:39:39 499332 382
cmake1.png 87Кб, 972x1216
972x1216
Аноны, может кто подсказать что за хуерга?
Пытался поставить витс по гайду
>Гайд: https://textbin.net/kfylbjdmz9
И, при попытке загрузить библиотеки, вылетает ошибка от cmake.
Пытался на анаконде делать, так и на отдельно установленном питоне - одна и та же ошибка.

пикрелейтед
Аноним 25/09/23 Пнд 02:23:44 499349 383
>>499240
В папке logs создаешь папку с именем модели и кидаешь туда index файл. Должно быть так, например:
/weights/gura.pth
/logs/gura/added_IVF338_Flat_nprobe_1.index

index-файл корректирует фонемы и акцент модели. Если у тебя на входе русскоязычное аудио, а модель англо/японоязычная, то использование index-файла сделает только хуже.
Аноним 25/09/23 Пнд 02:26:34 499351 384
>>499240
Index в logs/название_модели, чтобы автоматически подсасывало, можно просто указывать путь к файлу, если хочешь. С индексом врооооде как чуть лучше и быстрее, но чет хз. Мб тут найдутся знатоки которые расскажут зачем и для чего он на самом деле нужен
Аноним 25/09/23 Пнд 02:41:17 499359 385
>>499332
1. У тебя стоит python 3.11 под который ещё нет доброй части библиотек
2. Он пытается собрать какой-то пакет для питона из исходников (какой конкретно по твоим записям непонятно), но так как у тебя нет nmake (и в целом компилятора MSVC Build tools), то нихуя естественно не может.
Аноним 25/09/23 Пнд 09:49:42 499487 386
Аноним 25/09/23 Пнд 10:45:59 499532 387
>>488803
Спасибо, аноним
С меня Сталин-3000
Аноним 26/09/23 Втр 08:11:16 500714 388
>>461500 (OP)
Поделитесь опытом удаления шума в аудио файлах? Есть ряд записанных аудио почившего но глубоко любимого мною человека. Но есть шум. Хотелось бы удалить максимально весь шум. Есть такой инструмент как Adobe podacast beta https://podcast.adobe.com/

Так же есть бесплатный nvidia broadcast.

Оба инструмента великолепны поскольку используют нейронные сети. Они просто напрочь удаляют шум. Но первая платная а вторая как бы обрабатывается исходящий звук. Можно конечно обработать записанное аудио через виртуальный кабель.

Но по чесноку как вы лично избавляетесь от шума? Именно от не постоянного шума? Прошу поделиться опытом, если есть опенсорс проекты использующие нейронные сети для удаления шума я буду рад.

Также все же хотелось бы знать какие процессы обязательны в шумоудалении? То есть какие базовые процедуры нужнв? Нейросети это круто конечно но чтобы вы порекомендовали.
Аноним 26/09/23 Втр 08:40:37 500727 389
>>500714
обновление:
Adobe podcast все же бесплатен но хорошо работает с английской речью и ужасно справляется с русской и казахской речью((
Аноним 26/09/23 Втр 10:12:57 500758 390
>>500714
> Оба инструмента великолепны поскольку используют нейронные сети.
Нейрошиз, спок.
Аноним 26/09/23 Втр 15:40:22 500988 391
>>499487
если просто переделывать песни то да норм. а вот если обучать модели то 1 эпоха 20-30 минут будет. Обучать модели лучше онлайн
Аноним 26/09/23 Втр 15:45:57 500992 392
Ищу людей. Будем озвучивать пасты про говно голосом артаса.
Все будет просто. минут 10 времени.
Сначала текст озвучиваем через ттску а потом в рвс с моделью артаса прогоняем.
Аноним 26/09/23 Втр 17:30:52 501072 393
>>500992
Целого класса не хватило? Позови с параллельного.
Аноним 26/09/23 Втр 17:45:52 501089 394
>>501072
спасибо за совет. так и сделаю.
Аноним 26/09/23 Втр 18:00:02 501099 395
>>500714
Онлайн: https://vocalremover.org
Оффлайн: https://github.com/Anjok07/ultimatevocalremovergui

Оба выделяют дорожку с голосом в отдельный файл. Не уверен правда, как они работают с обычным шумом (их специализация - это выделение вокала из песен), можешь в онлайн-тулзе попробовать.
Аноним 26/09/23 Втр 23:30:55 501504 396
высшие-силы.mp4 1763Кб, 728x410, 00:01:07
728x410
Решил попробовать поиграться с нейросеточными голосами. Походу возник вопрос: как составить промт, чтобы речь звучала естественно и, желательно, красиво. Здесь есть специалисты?
Аноним 27/09/23 Срд 06:48:39 501712 397
>>501504
прогоняешь через рвс любой модели. или просто юзаешь sileroTTS
Аноним 27/09/23 Срд 09:08:38 501790 398
>>501099
неа тот софт с гитхаба не удаляет шумы, он убирает просто вокал из песни. Делает он это шикарно, но не с шумом.

Можно с аудасити удалить постоянные помехи, но вот локальные шумы не очень.

Для обладателей GTX есть от нвидиа мощный инструмент RTX Voice. Я удалил почти 95 % шумов но не все. Я пришел к выводу что все конечно не получится.

Но теперь встречный вопрос. Вот допустим я подготовил 10-15 минут вырезок с очищенным звуком. Теперь как подготовить датасет? Эти аудио годятся для данных?

Использование whisper который вырезает куосчки аудио где человек ращзговаривает невозможно. Пскольку виспер работает с английской речью.
Аноним 27/09/23 Срд 09:42:16 501820 399
>>501790
Whisper прекрасно распознает русский язык
Аноним 27/09/23 Срд 13:01:16 501979 400
image.png 376Кб, 1920x1080
1920x1080
Подскажите,как повысить тональность?
Аноним 27/09/23 Срд 15:02:07 502083 401
>>501820
а расскажи можно просто самостоятельно вырезать? то есть можно ли в аудасити убрать все паузы и потом вырезать непрерывные фразы? То есть я смотрел ютубера который говорил что виспер порой вырезает кусочки с артефактами.

Используется ли аиспер просто потому что нет времени самостоятельно вырезать? Так же расскажи как ты готовишь датасет. Насколько хорошие результаты ты получал?
Аноним 27/09/23 Срд 15:18:12 502105 402
>>501979
Auto predict F0 отключи и выкрути питч как тебе надо
Аноним 27/09/23 Срд 19:03:36 502266 403
1562999872426.mp4 3516Кб, 960x720, 00:02:14
960x720
Аноним 27/09/23 Срд 19:30:34 502288 404
Аноним 27/09/23 Срд 20:31:30 502350 405
>>461500 (OP)
анон, как сделать голосовой дипфейк?
Аноним 27/09/23 Срд 21:16:38 502375 406
Аноним 27/09/23 Срд 21:22:00 502382 407
>>502375
обучить нужно, да. это где?
Аноним 27/09/23 Срд 23:43:03 502475 408
Аноним 28/09/23 Чтв 00:11:54 502501 409
Хочу вкатиться в TTS, с клонированием своего голоса. Сейчас самые качественные, это ElevenLabs, Tortoise и Uberduck или уже есть что-то лучше?
Аноним 28/09/23 Чтв 01:54:53 502539 410
>>502375
Кстати знает кто как тренировать RVC без гуя ? Для инференса сделали хоть какой то костыльный скрипт, а тренить походу только в вебе
Аноним 28/09/23 Чтв 06:26:20 502586 411
Аноним 28/09/23 Чтв 08:58:00 502630 412
>>502083
Я Whisper использую только для транскрипции в текст, обрезает он как мудак.
Режу через Audacity либо руками, либо через лэйблинг
Аноним 28/09/23 Чтв 11:54:37 502710 413
Я вот не пойму, я обучил голос нормально, но когда начинает петь по каверу, она словно глотает буквы и звуки некоторые. Как это фиксить? А то блять поет кашу временами какую то.
Аноним 28/09/23 Чтв 12:02:59 502713 414
Как натренировать модель на свой голос, чтобы потом вставить в таверну? Мне не для песен нужно.
Аноним 28/09/23 Чтв 14:17:45 502812 415
>>502710
Тестил с другими готовыми моделями? Надо сперва понять, проблема с твоей моделью или с настройками.

>>502713
Зачитывай вслух любой текст с википедии или ещё откуда-нибудь минут 15 и используй эту запись для обучения модели. Желательно только чтобы клики мышью и прочие сторонние звуки в запись не попадали.
Аноним 28/09/23 Чтв 15:42:37 502860 416
>>502812
Разобрался, это был хуевый вокал, использую другую версию для наризания и очистки звука но реверба, стало в разы лучше.
Но как пофиксить то, что во время пения, голос словно ломается.
Аноним 28/09/23 Чтв 16:04:35 502870 417
>>502860
использовать хорошие модели
Аноним 28/09/23 Чтв 16:10:21 502874 418
>>502870
Модели чего? Голоса? Если его, то голос - заебатый, по крайне мере, лучше всех тех, что на нее есть.
Аноним 28/09/23 Чтв 16:22:28 502889 419
>>502874
хмммм. тогда хз почему. А что за модель?
Аноним 28/09/23 Чтв 16:23:34 502890 420
Аноним 28/09/23 Чтв 16:24:46 502891 421
>>502860
Мало инфы даёшь, остаётся только угадывать. Pitch extraction algorithm выставил в crepe или rmpvpe? По умолчанию стоит pm, а это кал.

Может ещё голос ломать, если в датасете нет достаточно высоких/низких звуков для твоего трека. Попробуй высоту голоса поменять - transpose выстави на -12 или +12.
Аноним 28/09/23 Чтв 16:26:40 502893 422
>>502891
>rmpvpe+
Стоит. Спасибо, попробую с transpose поиграться.
А раз вы тут, а что делать, если модель начинает "реп" читать? Да, в оригинале не очень большие паузы между пением, но модель прям слово без остановки их поет, и получается каша.
Аноним 28/09/23 Чтв 16:28:08 502894 423
>>502893
А бля, я понял в чем проблема, в вокале...но я даже хуй знает как его еще чистить сука.
Аноним 28/09/23 Чтв 16:47:12 502904 424
>>502890
пипец.Там и так голос говный в сериале так еще и модель
Аноним 28/09/23 Чтв 16:49:51 502905 425
>>502904
Вот и говорю, это самый лучший...
Аноним 28/09/23 Чтв 18:27:45 502964 426
>>500988
>Обучать модели лучше онлайн
Вплане в гугл коллабе RVC?
Аноним 28/09/23 Чтв 19:10:19 502978 427
Аноним 29/09/23 Птн 01:23:36 503123 428
Кто-нибудь пользуется Tortoise? Почему иногда выдаёт шикарные результаты, а иногда вообще пиздец что (на одном и том же сете)? И как можно генерировать текст побольше, а не два предложения за раз?
Аноним 29/09/23 Птн 02:30:10 503137 429
У кого сколько занимает времени тренировка модели RVC ? Количество эпох/размер датасета/видеокарта. Думаю арендовать таки машину, хочу прикинуть сколько выйдет по стоимости.
Аноним 29/09/23 Птн 06:27:28 503171 430
>>503137
тебе минимум нужна 2080 видюха. Ибо меньше это анриал. Трень в коллабе. Я выше кидал ссылки
Аноним 29/09/23 Птн 10:07:38 503242 431
>>502630
слушай анончик можно списаться с тобой по тг? очень нужно помощь, пару вопросов и я отстану

В общем есть очень много отрывистых аудиозаписей любимого мною человека которого уже давно нету. Они разной длины от секунды до 12 секунд. У меня еле набирается минут 10, так что мне как то надо будет воспользоваться также аудио сообщениями в одну секунду. Я уже все почистил, убрал шумы, вырезал то что надо, убрал реверб эхо. Все это лежит в папке в виде аудио сообщений с разными длинами. Единственный вопрос который стал для меня камнем преткновения это как сегментировать аудио и вооьще надо ли.

Где то пишут что для РВС некатегорично делить, можно просто вырезать паузы и локальные шумы. Кто то говорит что главное чтобы менее 10 секунд. Кто говорить что еще надо чтобы га был длиннее 4 секунд. Кто то пользуется виспером а кто самолично вырезает с помощью аудасити. Можете подсказать что мне делать.
Аноним 29/09/23 Птн 10:35:22 503270 432
>>503123
Какой репозиторий используешь?
Тренированную модель или дефолтную?
Аноним 29/09/23 Птн 11:16:32 503314 433
>>503270
>Какой репозиторий используешь?
Какой Бог послал. Всё делаю через два Коллаба, по этим гайдам на Ютубе:
>CLONE ANY VOICE WITH AI (GOOGLE COLAB) | 3 MINUTE TORTOISE-TTS TUTORIAL
>Longer Speech With Tortoise-TTS 🔊 | Tutorial | Voice Cloning
Датасет делаю по гайду из гитхаба
Аноним 29/09/23 Птн 19:15:48 503566 434
>>503171
Под арендой я имел облако, но не колаб. Смотрел на vast и runpod, там хотя цена ~0.50$/час, но надо залить 10$ минимум, а мне столько не надо. Lambda Cloud ещё есть, но хз как там с минималкой. Думаю модель за 1-2 часа должна натрениться, у меня датасет небольшой, вот и спрашиваю у кого какой опыт
Аноним 29/09/23 Птн 19:54:20 503588 435
>>503566
датасет небольшой значит модель говно будет
Аноним 29/09/23 Птн 23:26:19 503758 436
Поясните по каверам с неко арк. Это на каком языке изначально натренированная модель и где вообще ее взять?
Аноним 30/09/23 Суб 01:11:04 503851 437
Гуммивоз.webm 2871Кб, 1280x720, 00:01:20
1280x720
А такое как делается?
Аноним 30/09/23 Суб 01:30:58 503868 438
>>503851
Без нейросетей, детали у авторов мешапов
Аноним 30/09/23 Суб 04:02:31 503924 439
>>503868
rave dj же может так делать чёб нейронку не натренить делать мешапы А ?
Аноним 30/09/23 Суб 07:43:29 503951 440
Аноним 30/09/23 Суб 16:11:55 504132 441
анончики подскажите пожалуйста

у меня 15 минут хорошего отчищенного датасета, но они разной длины. Я вырезал через аудасити, там убрал эхо реверб, шумы, шипение, нормализовал все.

Кто то говорит что одно двух секундые вырезки норм. Кто то говорит что длина должна быть между 4 и 10 секунд. кто то режет через виспер кто вручную, кто то удаляет тишину и молчание а кто то нет.

Вот и не понятно что делать? Это единственное что я просто не могу понять.

Помогите кто нибудь?
Аноним 30/09/23 Суб 16:33:56 504148 442
>>504132
соедини все записи. Потом порежь на записи по 10 сек. 10 сек самая оптимальная длина
Аноним 30/09/23 Суб 16:48:57 504157 443
>>504148
То есть уже разделить на десять напофиг?
Аноним 30/09/23 Суб 16:58:13 504161 444
Аноним 30/09/23 Суб 17:10:45 504164 445
>>504161
Слушай анона я могу списаться? просто поспрашивать, я честно отьебусь потом, хочешь даже могу предложить заработок, есть вариант.
Аноним 30/09/23 Суб 17:16:17 504172 446
Аноним 30/09/23 Суб 17:29:07 504188 447
black senko.mp4 8877Кб, 512x768, 00:02:20
512x768
Аноним 30/09/23 Суб 17:37:01 504196 448
>>504164
анон. куда писать то?
Аноним 30/09/23 Суб 18:34:27 504242 449
Аноним 30/09/23 Суб 19:29:29 504284 450
Аноним 30/09/23 Суб 20:55:14 504343 451
Чем соединяете вокал и инструментал? Попробовал ableton, но файлы не ровные, а по тактам замучался подгонять и в целом дико неудобно выглядит весь процесс.
Аноним 30/09/23 Суб 21:07:58 504351 452
>>504343
Убери в настройках эблтона принудительный варпинг длинных треков и настраивай вручную или переезжай в рипер.
Аноним 30/09/23 Суб 21:10:17 504354 453
посоны, хочу натренировать нужный мне голос и им озвучивать текст который я буду давать ему через сосноль, я так понял RVC которая это умеет делать нет и обязательно нужно сперва как еблан озвучить текст любой TTS встроенными голосами и потом уже переделывать этот аудио во второй раз в нужный мне голос? неужели всё так хуёво?
Аноним 30/09/23 Суб 21:18:30 504362 454
>>504354
так сам создай лол. Чтобы твой форк делал сначала голос через ттску а потом переозвучивал его
Аноним 30/09/23 Суб 21:25:09 504366 455
>>504362
анон, я о RTC меньше месяца назад узнал, а ты мне предлагаешь уже форк делать, ты меня не понял, я имею ввиду только такой уебанский способ существует на данный момент с двойным конвертированием? то есть сперва текст в дефолтголос, а уже из него нужный тебе голос, неужели боги AI ещё не придумали ничего такого что сразу из текста делает нужный голос без двойной работы?
Аноним 30/09/23 Суб 21:25:57 504367 456
Аноним 30/09/23 Суб 21:30:19 504374 457
>>504366
придумали такое. щас найду и скину
Аноним 30/09/23 Суб 21:31:17 504376 458
Аноним 30/09/23 Суб 21:34:30 504381 459
>>504376
это уже видел анончик, там как раз сперва делает дефолтговно, а из него нужный голос, получается напрямую из текста нужным голосом пока нельзя, или нужно подождать анончика который знает такой вариант
Аноним 30/09/23 Суб 21:35:29 504383 460
image.png 32Кб, 990x381
990x381
>>504381
ну как бы тебе сказать. этого анона который знает такой вариант нету.....
Аноним 30/09/23 Суб 21:37:36 504385 461
>>504381
а в чем проблема то? Взял сделал свой собственный синтезатор голоса из нужного тебе и все
Аноним 30/09/23 Суб 21:42:05 504386 462
аноны, вы хотите сказать вот это
https://www.youtube.com/watch?v=ZpHyoKvLkR0
https://www.youtube.com/watch?v=k1uL_dVGdkk
тоже делается сперва озвучкой текста в говноголос, а потом переозвучка говноголоса в голос персонажа?

как они пишут промпт что он позволяет им обсуждать любые темы и с матом? ведь ChatGPT сразу начинает ныть когда материшься или обсуждаешь запрещённые пидорасами темы
Аноним 30/09/23 Суб 21:43:05 504388 463
>>504385
если бы я был гуру нейросетей, я бы такой вопрос не задавал, ну же
Аноним 30/09/23 Суб 21:43:20 504389 464
Аноним 30/09/23 Суб 21:46:47 504392 465
>>504383
странно что ещё нет индуса который бы сделал такой форк, его бы боготворили все школьники мира
Аноним 30/09/23 Суб 21:47:44 504394 466
>>504392
знаешь как искать надо. В гитхабе пишешь rvc или webui и сортируешь по недавно добавленным
Аноним 30/09/23 Суб 21:52:16 504396 467
>>504386
в чём заключается логика такого стрима?

чел нарезает сюжет от ChatGPT на кучу реплик, озвучивает каждую в промежуточную озвучку, потом в озвучку от нужного голоса и склеивает все эти кучи говн воедино и запускает проигрывание этого аудиомутанта пытаясь уверить нас что это общение между персонажами? а на деле просто склейка того что высрала RVC высрав кучу аудиофайлов?
Аноним 30/09/23 Суб 21:53:16 504397 468
>>504394
и получаешь кучу вишмастеров и бекдоров у себя на ПК?
Аноним 30/09/23 Суб 21:54:54 504399 469
>>504397
гитхаб это место куда люди загружают исходные коды. ты можешь просмотреть весь код и убедиться что там ничего нет
Аноним 30/09/23 Суб 21:55:01 504400 470
>>504386
не понимаю почему авторы этих нейронок перестали стримить после 1 бана, в чем проблема наклепать тонную ютуб каналов за 10 рубасов
Аноним 30/09/23 Суб 21:56:28 504402 471
>>504399
это понятно анон, но сидеть и по 2 дня просматривать исходные коды и быть уверенным что ты ничего не пропустил это не каждый может
Аноним 30/09/23 Суб 21:57:11 504403 472
>>504402
если бы там что то было это забанили уже давно
Аноним 30/09/23 Суб 22:06:49 504412 473
как в этих ваших гитхабах смотреть сколько раз скачали форк или добавили в избранное или оценили чтобы быть уверенным что качаешь что-то проверенное, а не созданное васяном?
Аноним 30/09/23 Суб 22:08:57 504413 474
image.png 7Кб, 180x229
180x229
>>504412
сбоку. и хватит опасаться. изучи английский хотя бы на школьном уровне и понимай что в коде.
Аноним 30/09/23 Суб 22:29:42 504427 475
>>504413
это-то я знаю, но сколько я не смотрю в этой статистике всегда всё по минимуму, нуежели на гитхабе такой низкий фидбек от зареганных и все качают из пд гостя и нихуя не пишут, а жрут как есть, меня это удивляет что там нет по 100500 лайкосов и отзывов
Аноним 30/09/23 Суб 22:39:52 504436 476
image.png 96Кб, 790x881
790x881
>>504403
>>504413
я вот дня 2 назад так же думал, скачал RVC_GUI вроде вот этот https://github.com/SalvadorDante/RVC_GUI и у меня начались проблемы с роутером, сперва в виде ограничения скорости, а теперь постоянные перезагрузки, теперь вот сижу и думаю совпадение это или с первого раза я присел на анальные зонды от индуса, потому что это говно у меня сразу не завелось и стало выдавать ошибку
Аноним 01/10/23 Вск 07:08:34 504616 477
>>504436
ну дык правильно. говно скачал. есть рабочее гуи для рвс его и качай
Аноним 01/10/23 Вск 16:09:28 504952 478
а если есть модель 100 эпох, как ее продолжить тренить?
Аноним 01/10/23 Вск 19:21:23 505154 479
аноны, по ссылке https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI скачивает архив в 1мб, как я понимаю это просто основа и чтобы скачать всё нужно ввести команды из инструкции по install, но я не хочу ставить кучу ненужного дерьма себа на пекарню, как можно скачать готовый архив со всеми файлами чтобы всё работало как portable версия из папки и без всяких ебаных зависимостей и виртуальных сред?
Аноним 01/10/23 Вск 19:27:43 505159 480
Аноним 01/10/23 Вск 19:45:00 505197 481
Аноним 01/10/23 Вск 19:48:10 505200 482
>>505197
> то есть вот это качать?
> там получается всё уже в куче и ненужно 100говн себе ставить?
Всё верно.
Аноним 01/10/23 Вск 20:20:16 505249 483
когда примерно ожидается 3 версия рвс?
Аноним 01/10/23 Вск 20:47:12 505271 484
С рвс и урл вроде немного разобрался. Теперь скажите можно ли модели из рвс использовать для озвучки текста переведя озвучку в мп3 какой-нибудь? И если да то что используется?
Аноним 02/10/23 Пнд 10:49:41 505806 485
аноны, самый лучший RVC это оригинальный от RVC-Project? какие ещё есть интересные форки?
Аноним 02/10/23 Пнд 11:13:21 505817 486
посоны, можете вкраце пояснить по ckpt и Onnx, что это такое и для чего и как использовать?
Аноним 02/10/23 Пнд 11:14:47 505819 487
как можно соединить полученный вокал и инструментал без установки стороннего софта, шобы через сосноль склеивать? ффмпег это умеет? подскажите команду
Аноним 02/10/23 Пнд 22:33:30 506521 488
Аноним 02/10/23 Пнд 22:59:27 506554 489
>>461500 (OP)
Как скоро появится массовый дубляж фильмов и аниме с использованием HeyGen или её конкурентов? В самой HeyGen я вижу две проблемы: 1) она не захватывает звуки фона, захватывает только сам голос, 2) она меняет так же и видеоряд, перекодирует видео на своей стороне, то есть делает его тяжёлым и с дефектами.
Аноним 02/10/23 Пнд 23:10:02 506569 490
>>506554
Хочу чтобы появился конкурент HeyGen такой же как Stable Diffusion конкурент для Midjourney - опенсорс, бесплатный, с локальными вычислениями.
Аноним 03/10/23 Втр 09:16:14 506891 491
>>506569
А я хочу чтобы песни мировые хиты были понятны для каждого на родном языке, чтобы были автокаверы. Suno это только начало
Аноним 03/10/23 Втр 15:57:09 507210 492
>>506554
>Как скоро появится массовый дубляж фильмов и аниме с использованием
Никогда, диктор стоит дешевле, чем оплата звукомонтажера, и делает свою работу раз в 20 быстрей. Вот ты ради интереса зайди в вакансии и посмотри когда посудомоечные машины оставят без работы посудомоек. Дикторов дохуя, сейю дохуя, они готовы работать за хлеб и воду, голосов похожих тоже дохуя. Ебалами они светить не могут, поэтому все легко заменимы, если вычеркнуть очевидное кумовство и непотизм.
Аноним 03/10/23 Втр 18:38:46 507353 493
Хлопцi, бачили вже обновление UVRv5? Наконец-то добавили модель MDX23C-8KFFT-InstVoc_HQ
Аноним 03/10/23 Втр 19:32:06 507406 494
>>507210
>звукомонтажера
Чел... ИИ заменит и их.
Аноним 03/10/23 Втр 20:04:14 507430 495
chirp (3).mp4 1220Кб, 400x600, 00:00:16
400x600
chirp (7).mp4 1820Кб, 400x600, 00:00:30
400x600
hfdhdfhdfh.mp4 2209Кб, 400x600, 00:00:30
400x600
chirp (6).mp4 1129Кб, 400x600, 00:00:15
400x600
годноты итт
Аноним 03/10/23 Втр 22:15:01 507578 496
>>507406
>Чел... ИИ заменит и их.
Посудомойщиц сперва замени, потом поваров, великий заменитель.
Аноним 03/10/23 Втр 22:53:02 507639 497
>>507578
Как я тебе блядь заменю то, что нахуй никому не нужно будет после прихода нейронок требует физического присутствия? Наркоман ёбанный.
Аноним 03/10/23 Втр 23:44:47 507711 498
Аноним 04/10/23 Срд 01:43:32 507770 499
Мне срочна нужно сделать запись Мори говорящей о лошадях. Раньше использовали Elevenlabs но теперь клонировать там никак... Есть тлдр что именно выбрать для ттса а не песен? Самплы есть уже готовые
Аноним 04/10/23 Срд 09:36:07 507809 500
А есть гайд по Audacity как почистить сэмпла от всякого говна?
Аноним 04/10/23 Срд 09:36:30 507810 501
А есть гайд по Audacity как почистить сэмпла от всякого говна?
Аноним 04/10/23 Срд 12:35:37 507888 502
Анон, сколько эпох нужно, чтобы натренировать модель через RVC на качественном датасете (рипнут с игры)
Аноним 04/10/23 Срд 16:04:06 508046 503
>>507888
если аудио записей больше 150 или 200 то брать можно 250 эпох. Если аудио до 100 то бери 300-400 эпох. 150-200 аудио по 10 секунд каждая
Аноним 04/10/23 Срд 16:05:05 508047 504
>>508046
я модель артаса(из варкрафта 3) тренил на 400 записях по 10 сек. Офигенная модель вышла. Брал 250 эпох
Аноним 04/10/23 Срд 23:06:51 508526 505
>>508046
Натренил на 100 эпохах в датасете 1802 файла, но эта треня капец какая долгая была, по 40 секунд на эпоху, и это на 3060. Кстати, получилось неплохо, видать повезло. А ведь еще надо tortoise натренить, чтобы можно было нормальный tts запилить. А он раз в пять медленней треннится. Это вообще нормально, что он так медленно обучается? Или я как всегда, что-то не так поставил.
Аноним 05/10/23 Чтв 07:15:39 508766 506
>>508526
>но эта треня капец какая долгая была, по 40 секунд на эпоху,
ээээх как же я тебя понимаю. Тяжело наверно. (1050 ти эпоха по 30 сек даже на 360 файлах)
Аноним 05/10/23 Чтв 07:17:39 508767 507
>>508526
тотроис тебе нафик не нужен. Бери эдж ттс прогоняй текст через него а потом через рвс
Аноним 05/10/23 Чтв 07:34:14 508771 508
>>508766
по 30 минут точнее. быстрофикс
Аноним 05/10/23 Чтв 07:56:20 508778 509
>>508526
Tortoise медленно тренит, но ему много эпох не нужно, погоды не делает
Аноним 05/10/23 Чтв 13:18:33 508985 510
Аноним 05/10/23 Чтв 14:18:38 509034 511
аноны подскажите плиз сетку менять свой голос на тянский

наверняка ведь натренировали уже
Аноним 05/10/23 Чтв 14:22:17 509039 512
ПРИЗЫВАЮ ПЕРЕКАТ
Аноним 05/10/23 Чтв 14:37:35 509061 513
Дискорд-сервер https://discord .gg/aihub выпилили, кто-то поднял сервак с бекапами здесь: https://voice-models.com/

>>509039
Чем котить?
Аноним 05/10/23 Чтв 14:46:39 509072 514
Аноним 05/10/23 Чтв 14:57:43 509080 515
> AI Hub was banned because of copyright, apparently someone did the trick of editing posts and added several links with copyrighted content, which left Discord with no option but to DMCA the server.
> The owner, menhguin, was also banned, so it's quite possible that the server won't come back.
> Apparently there will be a second server, but unfortunately all progress/history from the other server has been lost.
Это пиздец.
Аноним 05/10/23 Чтв 15:36:05 509118 516
>>509080
> Discord
И правда пиздец.
Аноним 05/10/23 Чтв 15:36:57 509123 517
>>509080
Да, создавать каталоги на дискорде это полный пиздец и отсутствие головного мозга.
Аноним 05/10/23 Чтв 16:26:31 509187 518
16923426887210.png 120Кб, 327x307
327x307
Есть у кого Лето и Арбалеты голосом Гань Юня из геншина? Дайте пожалуйста. Что-то не смог найти в прошлых тредах, хотя точно видел на дваче.
Аноним 05/10/23 Чтв 16:34:22 509195 519
>>508767
Сомневаюсь что получится так же классно как тут: https://www.youtube.com/watch?v=vhArHsfsLAQ в этом ролике автор идеально скопировал свой голос используя связку tortoise + rvc. Но спасибо, попробую.
Аноним 05/10/23 Чтв 16:36:44 509197 520
>>508771
F, слышал на 10-ых сериях нвидия плохо с параллелизмом, из-за этого на них плохо работают нейронки.
Аноним 05/10/23 Чтв 16:41:21 509204 521
>>508778
Ок так и сделаю, поставлю на 20 эпох, правда все равно, время обучения 10 часов, и комп после этого горелым пахнет, чтобы не сгорел нафиг надо окно открыть.
Аноним 05/10/23 Чтв 19:10:31 509369 522
>>508526
> Натренил за полтора часа
> треня капец какая долгая была
Чувак
Аноним 06/10/23 Птн 06:36:52 509750 523
Ребят у кого есть опыт работы с коллабом mangio RVC fork? Я купил колаб про, впервый раз выданная ссылка открылась и все было прекрасно. Потом я по своей глупости все это дело закрыл. Потом решил еще раз открыть с гитхаба колаб и каждый раз когда я его запускаю ссылки больше не открывают веб версию. Я пробил какой то лимит на запрос? Что это вообще?
Аноним 06/10/23 Птн 13:03:51 509944 524
image.png 39Кб, 511x372
511x372
Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом, есть какие то решения? Пока нашел прогу ттс реадер, но там нужен движок хороший японский, а их нереал скачать есть только каловый шиндовса. Полистал что нейронки предлагают, но там вроде везде нужно ручками текст вставлять жать кнопочку вкл и слушать, не программист чтоб все это автоматизировать самостоятельно, может придумали уже что то такое?
Аноним 06/10/23 Птн 19:59:16 510291 525
Подскажите тут раньше кидали ссылку на какую-то нейросеть для очистки старых голосовых записей от шумов. Проебал ссылку, не могу найти теперь.
Аноним 06/10/23 Птн 21:05:10 510347 526
Артас читает па[...].mp4 14816Кб, 900x900, 00:05:01
900x900
Аноним 06/10/23 Птн 21:07:59 510356 527
>>509944
>Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом
чего?
Аноним 06/10/23 Птн 22:48:36 510482 528
>>509061
>Чем котить?
КОТИ ЧЕМ ЕСТЬ
ПЕРЕКАТ Аноним 07/10/23 Суб 21:34:15 511208 529
Аноним 08/10/23 Вск 18:14:33 511998 530
Анон, как справляться с хором? Например у меня такой трек: везде обычно, а на 1:09 начинается часть с хором, на которой модель ахуевает
Вокал оригинала: https://voca.ro/19M1lMTqz676
Мой кавер: https://voca.ro/1itbIvewKIm8
Аноним 24/10/23 Втр 01:18:43 527899 531
>>511998
>Анон, как справляться с хором?
Никак, вокал должен быть чистым без "эффектов" Придется как то ручками, записать отдельно а уже на обработанную нейронком добавить хор эффект
Аноним 26/10/23 Чтв 22:12:41 530102 532
image.png 21Кб, 900x79
900x79
Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.
Аноним 28/10/23 Суб 00:00:43 530885 533
>>461500 (OP)
Запилите мне речь Пыни о Кормлении личинок.
Аноним 14/11/23 Втр 02:56:06 543619 534
Куда вы все эти модели устанавливаете?
Софт есть какой то или только сайты?
Аноним 14/11/23 Втр 08:25:09 543698 535
>>461500 (OP)
Как называется модель на второй вебм?
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов