Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 510 114 119
TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео пер /tts/ Аноним # OP 29/01/23 Вск 15:28:17 88212 1
1 (2).mp4 58Кб, 854x480, 00:00:11
854x480
1 (1).mp4 10Кб, 1920x1080, 00:00:01
1920x1080
1.mp4 10Кб, 1920x1080, 00:00:01
1920x1080
11.mp4 8Кб, 1080x1920, 00:00:01
1080x1920
TTS тред № 1
Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео перед постингом. Советую аудио лучше слушать в наушниках.
Есть VITS-Umamusume-voice-synthesizer, она только на японском говорит, но у неё 87 голосов.
ХагиФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

Также есть MoeGoe и MoeTTS.
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест.
Гайд: https://textbin.net/kfylbjdmz9
Аноним 29/01/23 Вск 15:33:25 88226 2
1.mp4 10Кб, 1920x1080, 00:00:01
1920x1080
Вкатился
Аноним 29/01/23 Вск 15:35:08 88227 3
>>88226
Бля, оп использовал это аудио, не заметил.
Аноним 29/01/23 Вск 15:36:59 88230 4
test.mp4 9Кб, 320x240, 00:00:01
320x240
>>88212 (OP)
>только на японском говорит
Нужно это исправлять.
Аноним 29/01/23 Вск 15:37:36 88231 5
>>88230
Можешь обучить свою модель
Аноним 29/01/23 Вск 15:40:26 88240 6
sasai.mp4 156Кб, 1024x1024, 00:00:03
1024x1024
Аноним 29/01/23 Вск 15:40:41 88241 7
Аноним 29/01/23 Вск 15:42:53 88244 8
"Ух бля" сгенерировать сможете?
Аноним 29/01/23 Вск 15:45:42 88247 9
>>88241
Хуя, на базе Live2D.
Аноним 29/01/23 Вск 15:51:30 88251 10
36980115.mp4 927Кб, 1280x544, 00:00:22
1280x544
Аноним 29/01/23 Вск 15:52:27 88254 11
>>88251
Нихуя не понятно, но очень интересно
Аноним 29/01/23 Вск 15:54:13 88255 12
>>88254
Что-то типа "покажи, покажи что внутри других людей, сломано, сломано, этот мир смеётся над нами..."
Аноним 29/01/23 Вск 15:55:02 88257 13
Еще бы картинки спомощью нейронки анимировать (а сами картинки тоже сгенерированы нейронкой) и это будет НЕЙРОБЛАЖЕНСТВО.
Аноним 29/01/23 Вск 15:55:50 88258 14
>>88255
Я все же думаю пора обучать русскому и использовать для озвучки паст про говно
Аноним 29/01/23 Вск 15:56:09 88259 15
>>88255
Лучше прикрепляй промпт на японском к аудио, так сможет любой в дипл засунуть его и понять что сказано
Аноним 29/01/23 Вск 15:56:27 88260 16
test2.mp4 7Кб, 320x240, 00:00:01
320x240
Аноним 29/01/23 Вск 15:57:53 88262 17
>>88254
Опенинг токийского калеки ну вы чево...
Аноним 29/01/23 Вск 15:59:30 88263 18
а есть уже какие-то работы по нейроконвертации голоса? смена тембра и все такое, без сеток тембр меняется очень топорно
Аноним 29/01/23 Вск 16:00:27 88264 19
ahegao.mp4 213Кб, 512x512, 00:00:12
512x512
Если хотите с картинками то можно скачать ффмпег и через кансоль делать:
ffmpeg -loop 1 -i imag.png -i ahegao.wav -c:v libx264 -t 30 -pix_fmt yuv420p -shortest ahegao.mp4

Надо заменит imag.png - на путь до файла, если там пробелы то надо в кавычки ""
Также ahegao.wav - на путь до аудио. А ahegao.mp4 - это название видео
Аноним 29/01/23 Вск 16:00:43 88265 20
>>88262
Тогда в первых словах заставь тянуть ошииихитео, да и с паузами поиграй
Аноним 29/01/23 Вск 16:01:09 88268 21
>>88259
У меня нет промта, я с аудио услышал...
Аноним 29/01/23 Вск 16:01:51 88270 22
>>88251
А музыка откуда?
Аноним 29/01/23 Вск 16:02:35 88271 23
Аноним 29/01/23 Вск 16:02:56 88272 24
Аноним 29/01/23 Вск 16:03:04 88273 25
image.png 32Кб, 461x470
461x470
пометил себе девочек в .json, ибо их китайские имена гуглить не умею
Аноним 29/01/23 Вск 16:03:57 88274 26
image.png 22Кб, 764x261
764x261
image.png 37Кб, 768x527
768x527
>>88271
Вот истинный промт по которому генерит нейронка.
Сюда прожимаешь и можешь по нему генерировать, а не по языку.
Аноним 29/01/23 Вск 16:04:38 88277 27
>>88273
Поделись фейлом.
Аноним 29/01/23 Вск 16:04:58 88278 28
>>88274
Благодарю, сейчас попробую.
Аноним 29/01/23 Вск 16:05:12 88279 29
>>88273
У 6 перса, Vodka. Очень грубый женский голос.
Аноним 29/01/23 Вск 16:06:26 88285 30
Аноним 29/01/23 Вск 16:07:05 88287 31
Аноним 29/01/23 Вск 16:08:20 88288 32
>>88279
Ой, она 7, но и у 6 тоже грубый.
Аноним 29/01/23 Вск 16:17:27 88307 33
1.mp4 81Кб, 600x900, 00:00:02
600x900
Теперь идеально, фон черный из-за того, что у оригинальной картинки он прозрачный.
Аноним 29/01/23 Вск 16:19:53 88318 34
Сделайте "Словно хуй ДРОЧЕННЫЙ..." голосом Соловьева
Аноним 29/01/23 Вск 16:23:08 88325 35
>>88260
это она суп на сковороде поджарила?
Аноним 29/01/23 Вск 16:24:58 88330 36
Почему на форче такого треда нет? Неужели опять победа двача?
Аноним 29/01/23 Вск 16:32:39 88349 37
Стесняюсь слушать генерации голоса...
Аноним 29/01/23 Вск 16:38:06 88360 38
>>88307
Какой голос, номер?
Аноним 29/01/23 Вск 16:40:00 88365 39
Аноним 29/01/23 Вск 16:42:32 88370 40
>>88212 (OP)
>она только на японском говорит
Но дышит и пыхтит она на международном, первая строка демо в хаггинг фейсе.
Аноним 29/01/23 Вск 16:49:53 88390 41
Как бы заставить эту мокрописю и другие vits модели юзать...
>>88370
Может ты разбираешься в этом?
Аноним 29/01/23 Вск 16:54:44 88394 42
А где в случае venv модели хранятся? Оно работает спокойно и без модели в паке pretrained_models
Аноним 29/01/23 Вск 16:55:44 88397 43
>>88390
Я щас капаюсь в ней, что такое vits?
Аноним 29/01/23 Вск 16:56:54 88401 44
>>88397
в папке часть в VITS-Umamusume-voice-synthesizer часть в anon_eblan
Аноним 29/01/23 Вск 16:57:40 88405 45
image.png 9Кб, 461x182
461x182
image.png 10Кб, 932x86
932x86
>>88397
Я имею в виду вот эти модельки, они вроде бы именно этим и являются.
Аноним 29/01/23 Вск 16:59:54 88411 46
image.png 33Кб, 710x271
710x271
А, нет, убрал из той папки все модели и не запускается. Значит именно оттуда и использует.
Аноним 29/01/23 Вск 17:00:59 88415 47
image.png 2Кб, 188x104
188x104
>>88411
Для запуска ей хватает лишь одной пикрил модели.
Аноним 29/01/23 Вск 17:01:01 88416 48
ahegao.mp4 26Кб, 200x200, 00:00:03
200x200
Учу детей плохому.
Аноним 29/01/23 Вск 17:02:21 88417 49
>>88415
При этом программа спокойно работает и разные голоса тоже.
Аноним 29/01/23 Вск 17:04:51 88418 50
image.png 283Кб, 1553x1021
1553x1021
>>88417
Попытался подменить модельку, изменяя имена, результат - пикрил. Стена неясного текста и не запускается.
Аноним 29/01/23 Вск 17:07:09 88422 51
>>88416
はつをちるねえー???
Аноним 29/01/23 Вск 17:08:06 88423 52
>>88418
Размер тензоров не совпадает, это скорее веса, тут просто так не пофиксить это. Это скорее всего веса, они получаются из тренировки. Или ты файлы перепутал.
Аноним 29/01/23 Вск 17:09:01 88428 53
Аноним 29/01/23 Вск 17:09:33 88431 54
>>88422
Да не, хотел сделать что-то похожее по звуку на "Хочу член"
ha↓tsu↓ tsi↓re↓n↓↓

Надо вкатываться в обучение русских моделей
Аноним 29/01/23 Вск 17:10:54 88438 55
>>88423
>не совпадает
С чем?
Аноним 29/01/23 Вск 17:11:03 88439 56
Аноним 29/01/23 Вск 17:12:30 88443 57
>>88439
Есть только японские голоса из VN ((
Видел онлайн сервис, ему примерно минута нужна. А сколько нужно этим моделям? Или ещё никто не добрался до тренировок?
Аноним 29/01/23 Вск 17:15:11 88448 58
>>88443
> Или ещё никто не добрался до тренировок?
Не, анон, который мне показал tts, сказал что можно натренировать. Я лично нашел лишь то видео от китайца и его колаб. Сам ничего не тренировал.

>Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8
Аноним 29/01/23 Вск 17:15:43 88449 59
>>88212 (OP)
Какие мощности локальная нейронка требует?
Аноним 29/01/23 Вск 17:16:39 88452 60
>>88449
Примерно никакие, загружается во врам ~400мб и вычисления выполняет процессор.
Аноним 29/01/23 Вск 17:17:02 88454 61
Аноним 29/01/23 Вск 17:18:47 88457 62
>>88438
все так называемые нейросети работают по шаблону
Input -> Model -> Output
В этом случае Input - это текст, а аутпут аудио.
Текст конвертируется в тензор(многомерный набор чисел с определённым размером, например, (256, 16, 2)) над этим вектором делают матиматическую магию и делают новый тензор, с новым размером который декодируется в аудио. И проблема в том что программа конвертится в твой текст в тензор, модель не может его использовать потому-что его размер не подходит для арефметических операций этой модели, потому что она по другому это делает. Это как мозги, у нас они могут по разному устроены и с разным количеством нейроннов, но делать одно и тоже.
Аноним 29/01/23 Вск 17:20:27 88461 63
>>88448
Хммм. Оригинальный датасет весит 11 гиг, и это на 110 English speakers. То есть на одного нужно примерно 100 метров голоса, 400 фраз. Мда, из фильмов такое не наколупать.
Аноним 29/01/23 Вск 17:32:27 88480 64
>>88457
MoeTTS смог в ту модель, но результат - полный бред. Сейчас затестил через MoeTTS другую модель, и она программе не понравилась.
Аноним 29/01/23 Вск 17:32:50 88483 65
image.png 69Кб, 979x505
979x505
Аноним 29/01/23 Вск 17:33:22 88485 66
>>88461
попроси сестру наговорить
Аноним 29/01/23 Вск 17:35:39 88489 67
image.png 34Кб, 647x495
647x495
>>88483
MoeGoe же в принципе у меня не работает.
Аноним 29/01/23 Вск 17:36:54 88490 68
>>88485
Я ж потом дрочить на это не смогу.
Аноним 29/01/23 Вск 17:36:59 88491 69
Аноним 29/01/23 Вск 17:37:31 88492 70
Аноним 29/01/23 Вск 17:41:07 88495 71
>>88492
И все они там прекрасно работают.
Аноним 29/01/23 Вск 17:41:32 88496 72
>>88483
У теюя ошибка на одно число, скорее всего это багкоторый можно фикснуть. Надо смотреть на ввод и в код
Аноним 29/01/23 Вск 17:42:17 88497 73
>>88489
Сделай 噪声比例 noise_scale = 1
Аноним 29/01/23 Вск 17:44:37 88499 74
image.png 3Кб, 172x126
172x126
image.png 44Кб, 641x486
641x486
image.png 105Кб, 1728x172
1728x172
Аноним 29/01/23 Вск 17:44:58 88500 75
image.png 11Кб, 439x101
439x101
Аноним 29/01/23 Вск 17:53:50 88517 76
изображение.png 13Кб, 843x112
843x112
>>88500
Пойду Илью озвучивать.
Аноним 29/01/23 Вск 18:06:54 88543 77
>>88500
Бля, локально бы эти модельки запускать...
Аноним 29/01/23 Вск 18:20:54 88563 78
>>88212 (OP)
https://github.com/TensorSpeech/TensorFlowTTS внятных демок нет, с гуглодиска качать лень
https://github.com/TensorSpeech/TensorflowTTS/tree/master/examples/android то же самое, для запуска на ведре

https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples
https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/ клонирование голоса, с семплами, сильные искажения

https://github.com/coqui-ai/TTS поддержка 20 языков
http://erogol.com/ddc-samples/
Аноним 29/01/23 Вск 18:23:22 88568 79
>>88461
>То есть на одного нужно примерно 100 метров голоса, 400 фраз. Мда, из фильмов такое не наколупать.
Любая русская стримерша.
Аноним 29/01/23 Вск 18:55:32 88658 80
>>88568
Там же наверняка всякая музыка и прочие вспуки на фоне будут.
Аноним 29/01/23 Вск 18:57:51 88662 81
Аноним 29/01/23 Вск 18:58:22 88664 82
image.png 19Кб, 877x208
877x208
Сейчас чекну что форчаньки об этом думают, и знают ли они вообще.
>>88658
Датасет надо долго и упорно подготавливать, да.
Аноним 29/01/23 Вск 19:08:57 88711 83
Аноним 29/01/23 Вск 19:09:00 88713 84
>>88662
А я хочу чтобы было как в аниме. И японские сейю мне на русском говорили. Такое и в гугл переводчике можно послушать.
Аноним 29/01/23 Вск 19:10:23 88718 85
Аноним 29/01/23 Вск 19:14:26 88722 86
Аноним 29/01/23 Вск 19:20:59 88743 87
>>88664
Реакция околонулевая
Аноним 29/01/23 Вск 19:21:34 88746 88
>>88658
>Там же наверняка всякая музыка и прочие вспуки на фоне будут.
Во-первых, есть вырыватели голоса. Во-вторых, можно тупо взять какие-нибудь порнорассказы начитанные томными женскими голосами. Там обычно фона нет.
Аноним 29/01/23 Вск 19:22:15 88749 89
image.png 18Кб, 706x183
706x183
опа
Аноним 29/01/23 Вск 19:22:35 88750 90
promis.mp4 67Кб, 448x576, 00:00:03
448x576
Аноним 29/01/23 Вск 19:23:00 88753 91
Аноним 29/01/23 Вск 19:23:34 88756 92
>>88746
гений, как я до этого не додумался. многие же сею вкатывались через аудиокниги
Аноним 29/01/23 Вск 19:25:53 88760 93
Аноним 29/01/23 Вск 19:26:01 88763 94
>>88753
Я хз насколько это хуета рабочая, т.к. полный ноунейм
Аноним 29/01/23 Вск 19:27:41 88771 95
>>88711
как это сделать?
Аноним 29/01/23 Вск 19:28:48 88776 96
Аноним 29/01/23 Вск 19:30:41 88782 97
>>88776
К сожалению, проприетарная хуитка.
Аноним 29/01/23 Вск 19:32:44 88789 98
>>88782
Ага, они плачутся от этого в треде, но мои посты игнорят.
Аноним 29/01/23 Вск 19:51:45 88850 99
Аноним 29/01/23 Вск 19:53:17 88856 100
>>88850
>>88664
Я именно на нытье про проприетарщину ответил своим постом.
Аноним 29/01/23 Вск 19:58:20 88879 101
Что-то не догоняю в тред.
Куда что жать, чтобы накачать аудиокниг на русском языке женских, которые начитали всякое фэнтези женское про ведьм. И потом эти аудиокниги скормить и на выходе получить русский ттс, который озвучит мне все что угодно?
Аноним 29/01/23 Вск 20:03:59 88907 102
>>88879
В яндексе нажми "слушать эротические порноистории бесплатно без смс мп3 мокрые письки ильхам зулькарнеев"
Аноним 29/01/23 Вск 20:04:17 88908 103
>>88879
Пока не знаем.
Кстати, вспомнил, что проект "Песнь Сайи" как-то озвучивали на русском. Итого есть к примеру целых 50 мегабайт озвучки самой Сайи и чуть больше 200 метров всей озвучки на русском. Если кто будет трейнить, можно будет выдрать и сами тесты, если это нужно.
Аноним 29/01/23 Вск 20:08:18 88925 104
Аноним 29/01/23 Вск 20:09:53 88931 105
>>88908
спасиб за подгон
Аноним 29/01/23 Вск 20:11:29 88936 106
>>88931
Эм, это один файл из 568.
Сам найдёшь, или мне весь пак залить?
Аноним 29/01/23 Вск 20:13:51 88943 107
>>88936
Я щс ищу, но меня смущает приписка с цензурой. Если у тебя пак с текстом то да.
Аноним 29/01/23 Вск 20:21:20 88956 108
>>88943
Тексты надо из скриптов выковыривать. Звук же могу хоть сейчас залить, хотя я просто распаковал файлы для андроид версии и прошёл по пути main.10105.ru.anso.saya\assets\x-game\x-voice\x-Persons_rus
Аноним 29/01/23 Вск 20:29:03 88972 109
>>88943
Короче декомпилировал скрипт игры, там в формате типа
> voice "voice/Persons_rus/Saya/04.ogg"
> s "Я работала в гостиной, покраска наполовину завершена. И теперь я готовлю тебе ужин, как показывают по телевизору."
> voice "voice/Persons_rus/Fuminori/40.ogg"
> f "Здорово."
Надо такое, или мне привести в более божеский вид? А то я немного приболевший сейчас, программировать неохото.
Аноним 29/01/23 Вск 20:40:19 88987 110
>>88908
>Песнь Сайи
Я загуглил. Зачем такое читать вообще, господи.
Аноним 29/01/23 Вск 20:46:04 88997 111
>>88987
Лучшая ВН всех времён и народов. Автор кстати потом деградировал и начал снимать всякое говно типа Психопаспорт, Судьба: Начало и прочие Мадоки. http://www.world-art.ru/people.php?id=80224
Аноним 29/01/23 Вск 20:48:32 89009 112
>>88997
Впрочем похуй, как кому кажется игра, главное, это почти готовый датасет чистых голосов на русском с текстами. Для бедных.
Аноним 29/01/23 Вск 20:49:16 89011 113
>>88997
>Лучшая ВН
БЛ же.
Аноним 29/01/23 Вск 20:55:56 89021 114
>>88972
Я смогу достать, ты откуда это берёшь, из игры?
Аноним 29/01/23 Вск 20:56:09 89023 115
Какие применения могут быть у TTS?
Аноним 29/01/23 Вск 20:58:46 89029 116
23369801154363.mp4 902Кб, 1280x544, 00:00:22
1280x544
Аноним 29/01/23 Вск 21:00:35 89033 117
>>89023
Если игрыть в игры с генеративным сюжетом, то будет классно кроме чтения ещё и слушать речь персонажа. Особенно если там есть не только слова.
Аноним 29/01/23 Вск 21:03:26 89038 118
image.png 6Кб, 555x98
555x98
>>88760
Но в японский не может.
Аноним 29/01/23 Вск 21:04:55 89040 119
>>89038
Или они хотят английский со звучанием японской сэйю? Что за бред.
Аноним 29/01/23 Вск 21:08:17 89044 120
>>89021
Да, из игры. Куда заливать?
>>89040
Я мечтаю о таком, лол. И с русским чтобы было. Конечно задача на порядок сложнее, но не думаю что прям вообще невозможно.
Аноним 29/01/23 Вск 21:16:31 89051 121
>>89044
Просто дай ссылку на скачку.
Аноним 29/01/23 Вск 21:17:20 89054 122
>>89023
Можешь полностью озвучить свой мультик одним ттс, или прикрутить в игре ттс, к чатжпт персонажам, в итоге нпс будут как люди генерировать фразы, ещё и озвучивать.
Можешь вести свой ютуб канал на любом языке, давая озвучку ттс.
Ну и ещё миллион вариаций.
Аноним 29/01/23 Вск 21:20:19 89061 123
>>89054
>ютуб канал
А это неплохая идея.
Аноним 29/01/23 Вск 21:20:44 89062 124
Можно еще в voicework пытаться.
Аноним 29/01/23 Вск 21:26:21 89076 125
Аноним 29/01/23 Вск 21:39:04 89116 126
>>89076
Спасиб, я и не думал о таком варианте даже.
Аноним 29/01/23 Вск 21:41:28 89125 127
>>89116
В принципе, можно пиздить голоса из любых игр, для которых есть анпакеры.

Скажешь, если чего получится.
Аноним 29/01/23 Вск 21:51:43 89149 128
>>89125
Я думаю к тому времени нужно будет новый тред создовать
Аноним 30/01/23 Пнд 04:01:28 89902 129
Аноним 30/01/23 Пнд 13:05:35 90487 130
>>89902
Вот эта штука вообще ништяк, но увы только для англо-говорящих. Русский там звучит как чухонец какой-то. Надеюсь, в будущем кто-нибудь запилит русскую версию, да чтоб с национальными акцентами. Идеально и для озвучки игр, и для аудиокниг, и для анимации. Можно и песенки позаписывать типа вокалоидов. Знай себе играй с ползунками, проставляя ударения и тональность.
Аноним 30/01/23 Пнд 13:49:23 90590 131
>>89023
Я книги им озвучиваю и всякие тексты, где озвучки нет.
Аноним 30/01/23 Пнд 18:34:08 91089 132
>>90487
есть utau, фри версия вокалоида, где можно создать свой банк голоса или использовать ещё чей-то

хз правда можно ли им нормальную речь сделать или только песенки

тоже синтез реяи такого рода это то для чего нейросети особенно не нужны

мне интересно а если сделать банк своего голоса... конечно никому его не давать
Аноним 30/01/23 Пнд 20:56:40 91360 133
Блядь, да как эту вашу хуйню локально запустить? Куча ошибок по гайду из шапки
Аноним 30/01/23 Пнд 22:03:19 91488 134
>>91360
Этот гайд я писал и его прошли только пару человек, поэтому это ожидаемо что могут быть какие-то траблы. Если у тебя есть какая-то конкретная проблема, то можещь написать в чём именно. И не забудь прикрепить скрин последних логов для из повершелл.
Аноним 31/01/23 Втр 11:46:12 92221 135
image 21Кб, 663x258
663x258
>>91488
При нажатии Generate в градио

Traceback (most recent call last):
File "E:\TTS\anon_eblan\lib\site-packages\gradio\routes.py", line 337, in run_predict
output = await app.get_blocks().process_api(
File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 1018, in process_api
data = self.postprocess_data(fn_index, result["prediction"], state)
File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 956, in postprocess_data
prediction_value = block.postprocess(prediction_value)
File "E:\TTS\VITS-Umamusume-voice-synthesizer\app.py", line 36, in audio_postprocess
suffix=".wav", dir=self.temp_dir, delete=False
AttributeError: 'Audio' object has no attribute 'temp_dir'
Аноним 31/01/23 Втр 11:54:48 92238 136
>>92221
В гайде степы с созданием папки(mk dir) и изменением куска кода делал? Посмотри внимательно и проделай еще раз.
не автор
Аноним 31/01/23 Втр 11:57:04 92244 137
>>92238
Они по гайду идут после запуска app.py, так что не делал.
Аноним 31/01/23 Втр 12:32:14 92284 138
>>92238
Спасибо анон, в тот раз не догадался.
Аноним 31/01/23 Втр 14:23:27 92502 139
synthesized-aud[...].mp4 125Кб, 298x332, 00:00:13
298x332
Аноним 31/01/23 Втр 14:36:59 92520 140
synthesized-aud[...].mp4 373Кб, 602x392, 00:00:42
602x392
Аноним 31/01/23 Втр 14:38:18 92523 141
>>92502
чел, это проприетарная хуита
Аноним 31/01/23 Втр 14:44:34 92533 142
>>92502
>>92520
Никто не спорит, что там норм качество, но:
1) Модель для английского языка.
2) Платная хуита.
3) Моджель для английского языка.
Нужна TTS уровня Виспера и Стабл Дифьюжена, чтоб можно было голос клонить на компе у себя/в калабе. А фочаньки тупые могут на свою хуиту сколько угодно дрочить, для наших целей это хуетой быть не перестает.
Аноним 31/01/23 Втр 16:43:08 92653 143
Аноним 31/01/23 Втр 17:06:06 92676 144
>>92533
Для таких целей архитектура должна быть заточена под zero/few shot learning, как SD. Не читал про архитектуру tts-моделей, но там точно есть VAE.
Аноним 31/01/23 Втр 17:09:27 92681 145
ygygq2.mp4 837Кб, 768x576, 00:00:40
768x576
Аноним 31/01/23 Втр 17:11:28 92684 146
Аноним 31/01/23 Втр 17:27:50 92718 147
synthesized-aud[...].mp4 518Кб, 1600x900, 00:00:44
1600x900
Аноним 31/01/23 Втр 17:54:04 92772 148
>>92718
Ты заеб этим калом срать.
Аноним 31/01/23 Втр 17:57:49 92777 149
>>92676
Gradio Demo for FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion.
Читать умеешь?
Аноним 01/02/23 Срд 11:24:38 94256 150
sh.mp4 349Кб, 210x230, 00:00:12
210x230
result.mp4 321Кб, 210x230, 00:00:18
210x230
Про xVAsynth уже писали? Дружелюбный интерфейс, куча уже готовых голосов + очень легко нагенерить свои, можно буквально 1 ссылкой из ютуба и десятком кликов запустить процесс. Но если заморочиться, то и результат будет лучше.
Аноним 01/02/23 Срд 23:50:20 95479 151
image.png 120Кб, 625x641
625x641
image.png 26Кб, 476x483
476x483
Парни, помогите сгенерировать голос.
есть 7166 звуковых файлов опредеоённого голоса, от 1 секунды до 1 минуты каждый. В названии файлов текст произносимый персонажом. Куда их закинуть чтобы кнопка была "сделать всё пиздато"?
Chatgpt не предлагать
Аноним 02/02/23 Чтв 11:08:53 95910 152
Аноним 02/02/23 Чтв 16:54:53 96552 153
Без названия (2).mp4 2717Кб, 1100x620, 00:00:23
1100x620
Тред умер?
Аноним 02/02/23 Чтв 17:11:20 96584 154
synthesized-aud[...].mp4 86Кб, 960x540, 00:00:01
960x540
Аноним 02/02/23 Чтв 19:48:46 96927 155
>>96552
Никто не решается обучить модель на русских голосах.
Аноним 02/02/23 Чтв 19:51:16 96938 156
>>96927
Ну я щс в этом капаюсь, но у меня трабля с библиотеками, потому что они расчитанны на убунту. Я щс учу докер, к своему стыду я им не пользовался. Если не получится то тогда просто скачаю ОС.
Аноним 02/02/23 Чтв 20:21:11 96984 157
>>96927
Натренировали бы на вокалоидах, лол.
Аноним 02/02/23 Чтв 20:40:45 97020 158
>>96984
русских вокалоидов нет
есть русские утаоиды но хрен ты кого на них натренируешь

в треде говорили же тренировать можно на аудиокнигах или на голосе своем или родственников/друзей/знакомые
Аноним 02/02/23 Чтв 21:01:11 97076 159
>>97020
Вот блядь идеальная ссылка с набором чистого голоса. Нет блин ждём непонятно чего.
>>89076
Аноним 02/02/23 Чтв 21:26:23 97135 160
Аноним 02/02/23 Чтв 21:44:18 97168 161
>>97135
Абасцался, теперь и мои рофельные стишки читают с таким надрывом, что я аж преисполняюсь...
https://vocaroo.com/1yZuonRNs0VZ
Аноним 02/02/23 Чтв 21:48:37 97175 162
1 (2).mp4 81Кб, 600x900, 00:00:02
600x900
РОССИЯ СВЯЩЕННАААААЯ НАША ДЕРЖАВАААА
это текст
Аноним 02/02/23 Чтв 21:49:35 97177 163
>>97175
блять вот я дурак не тот файл кинул
Аноним 02/02/23 Чтв 21:49:58 97179 164
>>97135
есть причина почему дикторам хуже всего
Аноним 02/02/23 Чтв 22:05:31 97199 165
Ну все, пиздец.
Вчера переписывал на свой лад для ВН-ки- речь Профессора Озпина, а теперь спустя день уже озвучил...
Напомните, а Ритан сколько сотен тысяч на озвучку ЛМР, с блэкджеком и борщом собирал, но не дособирал?

https://vocaroo.com/1nPCUDxT2cLS
Аноним 02/02/23 Чтв 22:18:08 97220 166
Аноним 02/02/23 Чтв 22:22:32 97232 167
>>88997
Сая-переоцененное говнище с душком сырого мяса.
Аноним 02/02/23 Чтв 22:26:01 97239 168
>>97232
Да. Ушёл дрочить на Саю, ням ням.
Аноним 02/02/23 Чтв 22:54:22 97322 169
Saya2929.webp 112Кб, 1024x768
1024x768
Аноним 02/02/23 Чтв 23:00:04 97335 170
>>97322
ЯННП, ну да ладно. Если что я за попенсорс модели, которые можно скачать да запустить у себя на ПК. Если у тебя такая, делись. Если это всё тот же сайт, то нах не нужно, ибо лимиты/цены/правила/пидорнут за просто так.
Аноним 02/02/23 Чтв 23:07:23 97352 171
>>97335
Так хер забей и не трясись, сделают для вас однокнопочный веб гуй, как для чатбота/риффстейшона/СД и прочего прочего.
Это я к чему-технология не нова и в нете все уже есть, еще месяца 4 первый серъезный взбугурт на эту тему был у озвучкобак.
А дрочишь ты на сырой кусок мяса а не на лолю.
Аноним 02/02/23 Чтв 23:16:27 97373 172
>>97352
Да я бы и с консолью попердолился, пердоля из меня ещё та.
>>97352
>А дрочишь ты на сырой кусок мяса а не на лолю.
Само собой, товарищ майор. На лоль я не дрочу.
Аноним 02/02/23 Чтв 23:23:42 97388 173
>>97373
А вдруг она мужик? У нас с этим строго...
Аноним 02/02/23 Чтв 23:34:04 97399 174
>>97388
Не, товарищ смотрящий, она всегда девушкой представлялась. правда я всё равно зашкварен, ибо она сосала, и я с ней сосался, всё, потрогал член губой и иду под шконку. А вообще пора заканчивать обсуждать игру и начать тренить TTS
Аноним 02/02/23 Чтв 23:40:06 97416 175
>>97399
Все впорядке-у неё может быть несколько ртов-не факт что она сосет член тем ртом-что тебя целует.
Аноним 03/02/23 Птн 07:09:24 97829 176
kikislavicvikin[...].png 1066Кб, 1024x1024
1024x1024
Аноны, нам нужен cleaner на русском, для того чтобы токенизировать аудио. Если кто-нибудь найдёт пишите.
Аноним 05/02/23 Вск 20:42:36 102553 177
Аноним 25/02/23 Суб 13:58:23 131167 178
>>88263
Есть. В реальном времени меняет голос на нейроночный, но иногда ошибается
Аноним 26/02/23 Вск 01:29:29 131836 179
Бля усыкаюсь с этой нейронки!

https://huggingface.co/spaces/OlaWod/FreeVC

Хотел загрузить результат, но даже в вебм формате пишет тип файла не поддерживается.
Аноним 26/02/23 Вск 02:32:07 131859 180
>>131836
Занрузи аудиофайл на вокару и ссылку в тред
Аноним 26/02/23 Вск 03:49:55 131889 181
>>131859
https://voca.ro/1avl3oiKiQiL
https://voca.ro/18ufKzytfWUD

Надо только референс и сурс очень ОЧЕНЬ чёткие заливать. Иначе будут артефакты. Но даже с моими видосами которые я туды залил получилось вот это
Аноним 26/02/23 Вск 06:18:01 131923 182
Аноним 26/02/23 Вск 09:37:45 131984 183
А нет такой, чтоб из моего голоса делала другой голос? Все эти штуки, по типу голосов варкрафта из телеги максимум на мемы годятся, для чего-то серьёзного нифига.
Аноним 26/02/23 Вск 10:04:52 131991 184
Аноним 28/02/23 Втр 02:36:30 134414 185
Кто-то уже тестил нейронки на предмет получения монетизации Ютуба? А то с инглишем в плане понимания у меня все хорошо, а вот с произношением довольно плохо. А нейронки вроде как выход
Аноним 28/02/23 Втр 03:01:46 134424 186
>>134414
Есть одна проблема - ютуб режет монетизацию аи-контента.
Аноним 28/02/23 Втр 12:27:25 134645 187
>>134424
>Есть одна проблема - ютуб режет монетизацию аи-контента

А как он отличит качественный AI от живой речи? Понятное дело, что хуевые говорилки банят, а тут уже нейронка, которая реально паузы ставит, интонации меняет и вообще очень круто звучит. Мне кажется намного лучше, чем когда я со своим акцентом записываю звук на английском
Аноним 01/03/23 Срд 14:54:36 135958 188
В чем можно локально на винде генерить человекоподобную речь? Влажные фантазии чтобы на русском, но и английский пойдет.
Аноним 01/03/23 Срд 17:19:46 136037 189
Аноним 01/03/23 Срд 17:23:40 136042 190
>>134424
>ютуб режет монетизацию аи-контента
В РФ по закону не льзя с ютуба получать все равно бабки
Аноним 01/03/23 Срд 23:20:16 136419 191
Модели для русского языка есть?
Аноним 02/03/23 Чтв 00:24:37 136491 192
image 138Кб, 1532x660
1532x660
>>136037
>Play.ht
Почему они ограничивают сколько я могу на своей видеокарте генерить реплик?
Аноним 02/03/23 Чтв 01:38:16 136530 193
Аноним 02/03/23 Чтв 01:45:29 136536 194
Соранно, что никто не кидал tortoise, по архитектуре лучший ттс-клонироваиелл голоса, даже в русский можетя но с акцентом
https://replicate.com/afiaka87/tortoise-tts
Аноним 02/03/23 Чтв 01:48:59 136539 195
>>136536
Было в соседнем треде. Вердикт- параша, которая на каждую фразу пердит по полчаса.
>>102542 (OP)
Аноним 02/03/23 Чтв 10:34:52 136667 196
Аноним 02/03/23 Чтв 12:20:55 136728 197
image 52Кб, 838x363
838x363
>>136037
Хуйню посоветовал, оно не локальное.
Аноним 02/03/23 Чтв 12:25:25 136734 198
Аноним 02/03/23 Чтв 12:33:53 136743 199
image 77Кб, 856x868
856x868
>>136734
>Модели для русского языка
Ураина цэ Россия?
Аноним 02/03/23 Чтв 12:37:39 136744 200
изображение.png 69Кб, 1340x588
1340x588
>>136743
Ежели ты слепой, то тебе модель не поможет.
Аноним 02/03/23 Чтв 13:54:15 136787 201
Аноним 02/03/23 Чтв 16:06:46 136907 202
>>136744
Как все сложно на энтих ваших гетьманхабах.
Есть нормальный энтерфэйс? Но не бот в телеграфе.
Аноним 02/03/23 Чтв 16:28:29 136939 203
>>136907
Дофига хочешь. Пока так, либо пердоль на русском (я даже не пробовал, лол), либо простая установка с жапонскими голосами.
Аноним 02/03/23 Чтв 19:10:27 137121 204
изображение.png 127Кб, 1324x1147
1324x1147
>>136907
Короче там всё просто, весь нужный код в репозитории.
https://voca.ro/18R9Y2GWUmEK
Весь код на скрине, нужно поставить торч, эту хуиту пипом и запускать.
Аноним 03/03/23 Птн 00:31:27 137703 205
Аноним 03/03/23 Птн 00:53:50 137736 206
>>137703
>v6 запустить
Если ты посмотришь внимательно, то v6 это STT модели (и они не выложили русскую).
>>137703
>Ну или хотя бы v2 а то там голоса наташек
Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу.
>>137121
Кстати, на проце модель работает в 2 раза быстрее. Так что куду подключать нет смысла.
Аноним 03/03/23 Птн 10:31:04 137941 207
>>137736
>Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу.
В v3 только aidar, baya, kseniya, xenia, eugene, random
Я хотел v2_natasha.pt заценить, а оно выдает TypeError: TTSModelAcc_v2.save_wav() got an unexpected keyword argument 'text'
Аноним 03/03/23 Птн 14:15:01 138012 208
>>137941
Нахуя тебе старая модель? Она же заикается, весит больше, срёт под себя и вообще.
Но вот, без проблем. Лайфхак- открыть .pt файл архиватором, зайти и найти там файл типа mono_acc_v2_package.py. Там все определения функций. Думаю дальше ты поймёшь, раз дошёл до шага с ошибкой.
https://voca.ro/1dPkmaIPG0Ac
Аноним 03/03/23 Птн 15:20:36 138051 209
image 1890Кб, 498x280
498x280
>>138012
>Лайфхак- открыть .pt файл архиватором
Аноним 03/03/23 Птн 15:56:44 138075 210
>>136734
Я это уже использую. Мне хочется теперь имитировать войс по входному примеру. Я из другого треда просто.
Аноним 03/03/23 Птн 16:45:26 138101 211
>>138051
Ну да, модели, как и куча другого дерьма сейчас, это переименованные zip архивы. Они везде просто, пиздец какой-то.
>>138075
>Мне хочется теперь имитировать войс по входному примеру
А, ну за этим нужны другие инструменты. Тебе побаловаться или как?
Аноним 04/03/23 Суб 15:48:00 139538 212
>>138101
> А, ну за этим нужны другие инструменты. Тебе побаловаться или как?

Скорее всего, использовать на постоянке в одном проекте. Качество не обязательно хорошее должно быть, главное, чтобы результат можно было понять и было хоть как-то похоже на имитируемый голос.
Аноним 05/03/23 Вск 13:48:32 140622 213
>>139538
И всё это из тюрьмы? Просто не хотел бы помогать преступникам. Даже с учётом открытости и прочего.
Аноним 05/03/23 Вск 17:53:05 140989 214
>>140622
Лол. Для творческих проектов.
Аноним 09/03/23 Чтв 12:53:02 147265 215
Только вкатываюсь в ТТС, шапка актуальна? Что сейчас самое топовое чтобы макисмально быстро генерить голоса? У меня хорошая видюха, я могу это делать локально? Хочу попробовать подключить голос к character.ai или TavernAI
Аноним 09/03/23 Чтв 15:51:05 147419 216
>>147265
Силеро, чуть выше скрин с 0iq гайдом.
Аноним 09/03/23 Чтв 16:08:49 147456 217
>>147265
На силеро можно хоть на цпу делать.
Аноним 09/03/23 Чтв 16:11:13 147458 218
>>147419
https://git.ecker.tech/mrq/ai-voice-cloning/wiki/Installation

А это что? Это норм?

Еще потыкал китайскую модель VITS-Umamusume-voice-synthesizer и охуеть. Почему еще нет гайда как они это сделали? Она почти идеальна и там хуева куча голосов с разными интонациями и эмоциями.
Аноним 09/03/23 Чтв 16:12:12 147459 219
Еще вспомнил что где-то пол года назад видел в телеге TTS где натренили голоса из русского Warcraft 3, как они это сделали?
Аноним 09/03/23 Чтв 16:29:45 147483 220
>>147459
Это и есть силеро. У них частично доки открытые, можешь погуглить репу.
>>147458
>А это что? Это норм?
В шапке написано что и зачем...
Аноним 09/03/23 Чтв 16:49:40 147508 221
>>147483
>Это и есть силеро.
Разве их модели можно обучать? Я не припомню в доках такого.
Аноним 09/03/23 Чтв 16:54:51 147523 222
>>147508
Они релизили готовую. Обучать то можно, это простой чекпоинт. Вопрос чем, ведь каждая модель - это практически доведенный до идеала голос. Тут разве что другим языкам обучать вопрос стоит, но для этого желательно иметь первоисточник голоса чтобы не извращаться с промтами на произношение.
Аноним 09/03/23 Чтв 17:04:46 147538 223
>>147523
>Вопрос чем, ведь каждая модель - это практически доведенный до идеала голос.
Так ведь аноны хотят голоса своих вайф.
Аноним 09/03/23 Чтв 17:19:03 147556 224
Аноним 09/03/23 Чтв 17:34:57 147588 225
>>147556
>2018
Хуя старьё, ещё до Whisper.
Просто я думал, что дообучить готовую модель на нужный голос проще, чем с нуля пердолится. С картинками и текстом оно работает именно так.
>>147523
>Обучать то можно, это простой чекпоинт.
А где можно почитать про обучение простых чекпоинтов? Для чайников.
Аноним 09/03/23 Чтв 18:03:35 147641 226
ц.png 80Кб, 1282x785
1282x785
>>147419
У меня 0 iq и я не понимаю что делать.

Сделал pip install silero and then import silero

А дальше что? Куда нажимать? Я в питоне второй раз. Разбираться как работает PyTorch Hub?
Аноним 09/03/23 Чтв 18:27:22 147682 227
Аноним 09/03/23 Чтв 18:28:06 147683 228
>>147641
Держи код для генерации речи. Кстати на твоём скрине распознание речи, тебе нужен TTS, а не STT.
>>137121
Аноним 09/03/23 Чтв 18:40:10 147704 229
Вроде как самый топ это Coqui-TTS/ YourTTS на vits model? Кто-нибудь пробовал свои модели на этом тренить?
Аноним 09/03/23 Чтв 18:56:03 147739 230
>>147704
>Coqui-TTS
>CODE_OF_CONDUCT.md
🤮
Аноним 10/03/23 Птн 11:21:42 148795 231
ТТС-тред такое убожество. В шапке 0 инфы про проприетарные ТТСы, которые можно абузить перерегистрациями.
Аноним 10/03/23 Птн 12:05:07 148818 232
>>148795
>буквально первый тред по ттс
Какой есть. Всегда можно накидать ссылок, которые уйдут в шапку при следующем перекате.
Аноним 10/03/23 Птн 12:23:03 148826 233
>>148818
да я в гугле написал и нашел все что хотел уже
Аноним 10/03/23 Птн 13:32:20 148888 234
Аноним 10/03/23 Птн 13:45:04 148912 235
>>148888
там омериканское
Аноним 10/03/23 Птн 14:02:25 148937 236
А что есть по части офлайновых переводчиков текста с русского на английский и vice versa? Или там только уровень промпта и лучше к апи DeepL подсасываться?

Посмотрел этот видос и захотел что-то подобное сделать.
https://youtu.be/UY7sRB60wZ4
Но он пока ничего из исходников не выложил.
Аноним 10/03/23 Птн 14:06:58 148946 237
>>148937
>Или там только уровень промпта и лучше к апи DeepL подсасываться?
Дипл однозначно лучше.
>Но он пока ничего из исходников не выложил.
https://github.com/hackdaddy8000/unsuperior-ai-waifu
Вот похожий проект, вдруг тебе пригодится.
Аноним 11/03/23 Суб 22:06:19 151176 238
>там омериканское
Вы ебанутые? Нахуя вам разные треды на разные языки? Я думал тут просто виабушники даже не гуглили англоязычные/русскоязычный, а вы просто ебнутые.

Единому треду по TTS быть.
Аноним 12/03/23 Вск 00:29:56 151466 239
>>148937
Годнота, у него новый видос вышел с сылкой на гитхаб
Аноним 12/03/23 Вск 19:34:21 152611 240
Так-с, а где собсна учить модели новым голосам и всему такому? Какой длинны должна быть дорожка для должного обучения и хуле в шапке какая-то хуйня, а не полезные ссылки? Нахуй мне ваша геншино-параша?
Аноним 13/03/23 Пнд 06:35:33 153417 241
Аноним 15/03/23 Срд 02:11:48 156557 242
>>88212 (OP)
Что-то из этого может аудиокниги начитывать?
Аноним 15/03/23 Срд 02:17:27 156561 243
>>156557
Силеро точно сможет.
Аноним 15/03/23 Срд 02:47:07 156585 244
>>156561
А есть готовые инструменты для скармливания ему большого текстового файла книги, или прийдется самому писать?
Аноним 15/03/23 Срд 05:10:15 156644 245
image 12Кб, 1247x132
1247x132
>>156585
Ну разбей текст на куски и сделай ченить тип.

count = 0
while (count < 500):
input_text = "C:\TTS Silero\text_" + str(count) + ".txt"
audio_paths = model.save_wav(text=input_text, speaker=speaker, audio_path="C:\TTS Silero\output_" + str(count) + ".wav")
print("C:\TTS Silero\output_" + str(count) + ".wav")
count = count + 1
Аноним 15/03/23 Срд 13:03:08 156887 246
>>156644
Сейчас бы виндой пользоваться.
Аноним 15/03/23 Срд 16:59:19 157250 247
>>88212 (OP)
audio-books su/reads/page/3/
Аноны, ищу аудиокниги, желатально английские с приятными голосами, или сайты, где можно смотреть английских дикторов. Выше скинул пример сайта.
Аноним 15/03/23 Срд 17:07:41 157264 248
>>88212 (OP)
Пример хорошего голоса
youtube com/watch?v=GH27p6RaHH8
Аноним 15/03/23 Срд 18:54:40 157434 249
>>156887
Человек просит готовые инструменты, ты уверен, что он из вашей красноглазой братии?
Аноним 15/03/23 Срд 18:56:19 157440 250
Аноним 15/03/23 Срд 19:47:02 157560 251
>>157434
Именно. Линукс - готовый инструмент,который даёт полный контроль пользователю и принадлежит только ему.
Аноним 15/03/23 Срд 20:34:19 157657 252
>>157560
>который даёт полный контроль пользователю
Не даёт, а принуждает к контролю, настраиванию и прочему пердолингу.
Аноним 15/03/23 Срд 20:37:20 157670 253
>>157657
> пердолинг
А теперь скажи как полностью отключить телеметрию на винде.
Аноним 15/03/23 Срд 20:49:04 157696 254
>>157440
Это пример среднего голоса
Аноним 15/03/23 Срд 21:18:12 157774 255
>>157670
>полностью
Снести винду, или никак.
мимо
Аноним 15/03/23 Срд 21:22:12 157790 256
>>157670
Поищи скрипт Ameliorated.
мимо
Аноним 15/03/23 Срд 21:51:47 157851 257
>>157670
Это не обязательное действие. Шинда нормально работает и с анальной пробкой. А теперь скажи, как отключить телеметрию в бубунте с хромом на борту.
Аноним 15/03/23 Срд 22:00:31 157867 258
>>157851
>с хромом
Юзай хромиум? Или UngoogledChrome? Или firefox? Кек.
Аноним 15/03/23 Срд 22:02:41 157875 259
>>157851
> телеметрию в бубунте
Собрать ядро самому.
Аноним 15/03/23 Срд 22:29:25 157912 260
>>157867
>Или firefox?
This. Хоть и под шиндой. Впрочем, и там анальных пробок достаточно.
>>157875
Ага. И либы. И вычистить весь код. А так я и ядро шинды собрать могу ХРшное, но радости мне это не прибавит.
Аноним 23/03/23 Чтв 13:37:18 174663 261
>>157851
Разве бубунта идёт не с лисом?
Аноним 23/03/23 Чтв 20:12:06 175661 262
>>174663
У хроморабов анальная пробка так глубоко, что они её тащат даже на люнукс. Замечал десятки раз.
Аноним 26/03/23 Вск 20:30:11 184922 263
Есиь сейчас аналоги evenlabs для русских голосов?
Аноним 26/03/23 Вск 20:31:55 184932 264
>>140622
Нет конечно. У нас локальные мемы где знаменистости некие вещи говорят, хотим это в ирл сделать
Аноним 31/03/23 Птн 01:21:44 194833 265
Стикер 0Кб, 200x133
200x133
Бамп.

Аноны, как я понял из постов и истории гугла, раньше у silero была в открытом доступе модель для копирования образцов голоса, но из за РАБОТНИКОВ СБЕРБАНКА они эту фичу быстро скрыли от общественности. Теперь у них там только "random" который выдает полное говно, нагенерировал штук 500 голосов и все очень плохого качества.

Ну и как быть? Какие ещё есть варианты для копирования голоса на русском? Сразу говорю мне не для сугубо личных целей. Есть одна тян актриса озвучания, которая мне давно нравится, сэмплы её голоса и аудиокниги я давно собираю. Хочу этот голос в свое полное распоряжение.

И второй вопрос. Как в голосовую модель добавить интонацию? Может кто знает какие приемы для этого? По умолчанию есть вопросительная и восклицательная которые нейросеть сама делает исходя из промпта, но может как-то ещё это можно контролировать? Слишком сухая речь получается. Не обязательно в silero а вдруг есть ещё какая-то неизвестная мне модель могущая в русскую речь.

Короче бампуа нужному треду, не тонем.
Аноним 31/03/23 Птн 20:57:50 196348 266
>>194833
>Ну и как быть? Какие ещё есть варианты для копирования голоса на русском? Сразу говорю мне не для сугубо личных целей.

https://github.com/NVIDIA/mellotron
https://github.com/NVIDIA/tacotron2

На русский язык тренировать заебешься, но я вроде финансирование от ВУЗа выбил, может и смогу
Аноним 01/04/23 Суб 06:54:30 197179 267
>>196348
Дали денег на проработку api, владельцы которого запретили использование в России, коммерческое так точно. Ебал рты наших попильных вузов.
Аноним 01/04/23 Суб 21:18:08 198113 268
>>197179
>Дали денег на проработку api, владельцы которого запретили использование в России,
Я не совсем еблан это ВУЗу говорить

> коммерческое так точно
Про коммерческое никто не говорит
Аноним 03/04/23 Пнд 05:05:11 200659 269
Я не понимаю, как установить pyopenjtalk, это просто какой-то пиздец. Что это за хуйня?

Collecting pyopenjtalk
Using cached pyopenjtalk-0.3.0.tar.gz (1.5 MB)
Installing build dependencies ... done
Getting requirements to build wheel ... error
error: subprocess-exited-with-error

× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> [28 lines of output]
setup.py:26: DeprecationWarning: distutils Version classes are deprecated. Use packaging.version instead.
_CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver)
Traceback (most recent call last):
File "C:\Python310\lib\runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "C:\Python310\lib\runpy.py", line 86, in _run_code
exec(code, run_globals)
File "C:\anon_eblan\Scripts\cmake.exe\__main__.py", line 4, in <module>
ModuleNotFoundError: No module named 'cmake'
Traceback (most recent call last):
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
main()
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
json_out['return_val'] = hook(hook_input['kwargs'])
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel
return hook(config_settings)
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 162, in get_requires_for_build_wheel
return self._get_build_requires(
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 143, in _get_build_requires
self.run_setup()
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 267, in run_setup
super(_BuildMetaLegacyBackend,
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 158, in run_setup
exec(compile(code, __file__, 'exec'), locals())
File "setup.py", line 154, in <module>
File "C:\Python310\lib\subprocess.py", line 456, in check_returncode
raise CalledProcessError(self.returncode, self.args, self.stdout,
subprocess.CalledProcessError: Command '['cmake', '..', '-DHTS_ENGINE_INCLUDE_DIR=.', '-DHTS_ENGINE_LIB=dummy']' returned non-zero exit status 1.
[end of output]

note: This error originates from a subprocess, and is likely not a problem with pip.
error: subprocess-exited-with-error

× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> See above for output.

note: This error originates from a subprocess, and is likely not a problem with pip.
Аноним 03/04/23 Пнд 10:21:14 200850 270
>>200659
>subprocess.CalledProcessError: Command '['cmake
А чому смейк? И вообще билд тулы установлены?
Аноним 03/04/23 Пнд 10:50:38 200878 271
>>200850
> >subprocess.CalledProcessError: Command '['cmake
> А чому смейк?
Понятия не имею, в питоне не разбираюсь. Это же он эту функцию вызвал, а не я.
> И вообще билд тулы установлены?
Какие?
спасибо, что написал
Аноним 03/04/23 Пнд 12:17:10 200981 272
изображение.png 22Кб, 475x239
475x239
изображение.png 11Кб, 641x194
641x194
>>200878
>Какие?
Обычно рекомендуют ставить визуал студию с примерно такими компонентами.
Аноним 03/04/23 Пнд 12:33:57 201013 273
>>200981
У меня стоит, хотя надо проверить, все ли необходимые компоненты. А как оно будет взаимодействовать с питоном?
Аноним 03/04/23 Пнд 13:37:40 201090 274
изображение.png 24Кб, 660x519
660x519
>>201013
А ХЗ, это я всё по опыту текстовых нейронок. Обычный вызов программы.
Попробуй просто в обычной консоли цмейк вызвать.
Аноним 03/04/23 Пнд 14:07:19 201136 275
ЗАЛЕТАЮ С ДВУХ НОГ С САМЫМ ГЕНИАЛЬНЫМ ВОПРОСОМ ITT!!!
Есть ли рабочий способ озвучивать текст с генеративных нейронок, вроде https://github.com/oobabooga/text-generation-webui не копируя его вручную в интерфейс озвучки?
Конкретно к этой оболочке прикручена богомерзкая silero, но она нихуя не работает с русским.
Может есть какие-то другие движки, которые могут в русский? Меня бы даже качество https://beta.elevenlabs.io вполне устроило.
Аноним 03/04/23 Пнд 15:08:18 201234 276
ahegao.mp4 40Кб, 586x114, 00:00:02
586x114
>>201136
>silero, но она нихуя не работает с русским
Аноним 03/04/23 Пнд 15:37:20 201269 277
>>201234
>не копируя его вручную в интерфейс озвучки
Аноним 03/04/23 Пнд 16:33:08 201377 278
>>201269
Ну так настрой встроенный в вебгуй сирено, чтобы он применял русскую модель. Там почти всё готово, небось пару строчек дописать нужно.
Аноним 03/04/23 Пнд 16:57:54 201418 279
>>201090
Cmake вызывается. Да и другие нейронки работают. Только pyopenjtalk не ставится. А в гайде ОПа вообще ни слова об этом.
Аноним 03/04/23 Пнд 17:27:39 201456 280
>>201377
>небось пару строчек дописать нужно
Ахуенный совет. Ты бы ещё погуглить предложил.

Список спикеров есть только в питоновском файле и даже если я его отредактирую, мне придётся пересобирать колаб, чтобы это запустить. хотя вряд ли это вообще поможет
Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править, так что даже смысла с ней возиться нет.
Задача по разгребанию всего этого полурабочего говна по красноглазию может посоперничать с написанием своего движка с нуля.

Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?!
и похоже что нет
Аноним 03/04/23 Пнд 17:47:55 201503 281
>>201418
>А в гайде ОПа вообще ни слова об этом.
Он вообще на минималках был написан. Кстати, я тут заметил строчки
>>200659
> _CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver)
Какие у тебя версии софта? И откуда pyopenjtalk ставишь?
>>201456
>мне придётся пересобирать колаб
Ну так сделой.
>Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править
Чел, ты же понимаешь, что колаб это такой же компьютер, просто в облаке гугла? Всё, что работает там, можно запустить локально (если ресурсов хватает).
>Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?!
Готового нету. И впиливание другого TTS движка 100% будет сложнее, чем перенастройка сирено на русский.
Аноним 03/04/23 Пнд 18:15:33 201548 282
cython.jpg 7Кб, 330x46
330x46
>>201503
>Какие у тебя версии софта? И откуда pyopenjtalk ставишь?
Python 3.10.7
Cython version 0.29.34
pyopenjtalk ставлю командой pip install pyopenjtalk.
Аноним 03/04/23 Пнд 18:23:47 201560 283
изображение.png 30Кб, 1519x195
1519x195
>>201548
А, сорян, в инструкции же всё есть. Качай@пользуйся.
Аноним 03/04/23 Пнд 18:50:15 201594 284
>>201560
Я еблан. Спасибо, помогло.
Аноним 03/04/23 Пнд 19:12:46 201621 285
изображение.png 8Кб, 213x53
213x53
>>201594
>Я еблан.
Я знаю. Пожалуйста. Вспомнил, что у меня тоже самое было.
Аноним 03/04/23 Пнд 19:12:51 201622 286
arigato.mp4 40Кб, 512x768
512x768
Аноним 03/04/23 Пнд 19:15:55 201633 287
>>201503
>Всё, что работает там, можно запустить локально
Да и именно поэтому буквально НИКТО как минимум на этой борде не смог запустить модуль гуглпереводчика локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет.

>Ну так сделой.
Когда тебя о чём-то спрашивают о решении какой-то проблемы, ты всегда сначала говоришь что это хуйня, а потом советуешь спросившему разобраться самостоятельно? Охуенно ценный совет, что бы я блядь, без тебя делал.
Аноним 03/04/23 Пнд 19:18:42 201641 288
7.mp4 83Кб, 512x768, 00:00:02
512x768
Аноним 03/04/23 Пнд 19:26:39 201651 289
>>88212 (OP)
То есть тут один тред на всю борду и нет ни одного женского голоса, способного приятно зачитать текст по-русски?

Дайте хоть ссылку, где Microsoft Svetlana скачать можно. Онлайн видел, норм читает
Аноним 03/04/23 Пнд 19:56:42 201712 290
>>201651
Внезапно Ксения на колабе запускается успешно. Спасибо, Анон.
Аноним 03/04/23 Пнд 20:24:40 201767 291
ahegao.mp4 77Кб, 1730x210, 00:00:05
1730x210
Аноним 03/04/23 Пнд 20:52:42 201853 292
>>88273
Напомните, как json прикрутить?
Аноним 03/04/23 Пнд 23:37:09 202253 293
>>88212 (OP)
Анонсы, помогите!
Перечитываю тред, но всё меньше понимаю смысл, и всё больше не понимаю, что в моем случае норм бы сработало.
Моя задача - озвучивать большие объемы текста нормальной английской речью. если там можно будет свой голос загрузить, то это плюс, но опционально
Что для этого использовать? На онлайн ресурсах для озвучки всегда количественные ограничения, есть какие-то непонятные японские вайфо-дрочилки с японским акцентом, мне наверное такое не подойдет. Остается скачивать питон и загружать на него какое-то ТТС дополнение от ОПа или что-то другое? Или как
Аноним 04/04/23 Втр 00:03:36 202302 294
>>202253
гайд по локальной модели генерит только японские голоса
Аноним 04/04/23 Втр 04:52:47 202617 295
>>194833
>Есть одна тян актриса
Дани Рохас? (Алия Насырова)
Аноним 04/04/23 Втр 05:54:19 202661 296
Satania1.mp4 94Кб, 820x580, 00:00:04
820x580
Satania2.mp4 143Кб, 640x416, 00:00:07
640x416
Аноним 04/04/23 Втр 06:32:24 202671 297
Satania3.mp4 174Кб, 1200x1600, 00:00:01
1200x1600
Аноним 04/04/23 Втр 07:06:56 202688 298
Satania4.mp4 136Кб, 714x1000, 00:00:02
714x1000
Аноним 04/04/23 Втр 08:14:44 202724 299
>>201633
>локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет.
Я это сделал. Могу даже пруфы предоставить, только я разочарован тупой ламой и больше не пользуюсь.
Рассказывать пидорашкам из того треда как сделать не буду, так как они отказались по многочисленным просьбам анонов поднять ламу на коллабе, поэтому идут нахуй.

Пусть сидят квантуют и тупые вопросы задают не менее тупой модели. Хотели пердолиться каждый отдельно - пердольтесь.
Аноним 04/04/23 Втр 12:29:47 202905 300
Хай, гайс. Хочу вкатиться в ттс, с чего начать, что юзает местный анон? Полистал по треду вроде самая норм херня это платная
штука: https://beta.elevenlabs.io/speech-synthesis
Есть ещё что-нибудь на англе?
Аноним 04/04/23 Втр 12:57:04 202925 301
>>201767
Так-то и я могу, а вот почему мне колаб не разрешает длинные фалы сохранять? 40 секунд - всё, нету ссылки на файл. Слушать можешь, качать нет
Аноним 04/04/23 Втр 13:04:42 202936 302
>>202253
ТТС ещё пойди найди. Пока только смог скачать голос от IVONA, но он звучит как мультики с двача. Самый приятный пока голос - это xenia, но им на колабе только короткие фрагменты можно озвучить, а если хочешь с SSML, то вообще не больше 1000 символов.

В общем, ситуация в отрасли озвучки самая днищенская, как я вижу. Картинки генерить - бесплатные модели валяются везде на выбор по тематике. Текст генерить - ОпенАИ хоть и не раздает, но доступ на сайте есть. Да и открытые модели в сети какие-то тоже. Видимо звук не так востребован, что ли
Аноним 04/04/23 Втр 13:32:55 202969 303
>>202724
>Я умею запускать ГТА 3 на денди, только я тебе не расскажу потому что ты не чёткий пацан.
Признавайся, пиздел такое?

>Могу даже пруфы предоставить
Лол, единственный возможный пруф это способ решения этой проблемы, который заработает не только у тебя в манямире
Аноним 04/04/23 Втр 14:26:11 203027 304
>>202905
>Хочу вкатиться в ттс, с чего начать, что юзает местный анон?
MoeTTS для япа с инглишом и силеро для русича.
>>202925
Я не в колабе если что, всё локально.
Что же касается ограничений, кажется, у колаба проблемы с отдачей файлов больше х мегабайт. Можно попробовать сохранять сразу на свой диск.
Аноним 04/04/23 Втр 15:03:17 203069 305
>>203027
откуда у тебя xenia локально?
Аноним 04/04/23 Втр 15:30:06 203109 306
Аноним 04/04/23 Втр 15:44:52 203145 307
>>203109
О! А я могу её подключить в Speech2Go так же как и IVONA? Или это другая технология. Я не шарю, но мне интересно сделать так, чтобы я мог озвучивать текст хоть локально, хоть в колабе, не важно. Не для комерческого применения.
Аноним 04/04/23 Втр 15:50:53 203159 308
>>203145
Понятия не имею.
Но silero очень лёгкие, не вижу смысла пердолится с колабами.
Аноним 04/04/23 Втр 15:53:06 203166 309
>>203159
Ладно. А как тогда их запускать?
Аноним 04/04/23 Втр 16:34:51 203238 310
изображение.png 220Кб, 1890x1811
1890x1811
>>203166
Очевидно код напердолить. Вот минимальный вариант, дальше пили сам.
Аноним 04/04/23 Втр 16:36:09 203241 311
Почитал гайды, ниче не пони. Мне надо ставить себе питон и на нем писать код? Я не люблю питон, я гошник. Можно мне что-то на го или без танцев с кодом? Ну или просто ткните пальцем в мануал
Аноним 04/04/23 Втр 16:40:08 203243 312
>>203238
Ладно. Давно пора его подучить. Спасибо
Аноним 04/04/23 Втр 16:51:22 203260 313
Аноним 04/04/23 Втр 17:15:05 203295 314
>>203260
В яндекс картинку закинь, потом по минимуму почистить надо будет. А вообще это даже полезно, хоть поймёшь немного, что и зачем в коде.
Аноним 07/04/23 Птн 03:35:18 207763 315
>>202936
>это xenia
Локально их запустите, господи
Аноним 08/04/23 Суб 08:42:24 210400 316
>>88212 (OP)
> VITS-Umamusume-voice-synthesizer, она только на японском говорит,
Есть какие-то гайды, как генерить годноту? У меня не получается сделать экспрессию нужного уровня.
Аноним 08/04/23 Суб 09:03:44 210407 317
Аноним 09/04/23 Вск 02:51:36 212561 318
>>97199
Можешь сказать какую модель использовал?
Аноним 09/04/23 Вск 03:22:23 212580 319
>>136787
> Зато на русском
Не локальное на русском - тут и SoundWorks подойдёт. Но тред именно о локальном.
Аноним 09/04/23 Вск 03:28:06 212584 320
>>202936
> Видимо звук не так востребован, что ли
Самый последний Ксеон стоимостью 10 штук за процессор, лепит звук на скорости около 15 секунд в секунду. То есть это дорогое удовольствие. Текст генерировать дешевле. Поэтому бесплатных хороших моделей пока и не найти. Платных - выбор голосов зашкаливает.
Аноним 09/04/23 Вск 14:16:37 213155 321
>>212584
>Текст генерировать дешевле.
Хороший текст можно делать только на небольшом кластере видях стоимостью в 10 этих ваших платиновых зивонов, так что нифига не дешевле.
Аноним 09/04/23 Вск 14:33:32 213199 322
>>213155
Щито? Каком кластере видях? Там одна A6000 справится. И это не 100 килобаксов, иначе триала на OpenAI не было бы.
Аноним 09/04/23 Вск 14:54:30 213252 323
>>213199
>Там одна A6000 справится.
Не справится. 175B параметров требуют больше 200 гиг врама.
>>213199
>иначе триала на OpenAI не было бы.
Они на подсосе у майкрософта, на них бабки льются рекой. Они будут захватывать рынок любой ценой, даже работая в глубокий минус.
Аноним 10/04/23 Пнд 03:11:16 215024 324
Silero TTS можно вообще подтянуть на чтение английских букв и цифр в ру модели 3_1 которая?
Я нормализацию цифр и чтение транслита имею ввиду
У меня она просто скипает числа записанные как 1, 2, 3, и любые слова на английском языке, хотя я видел в интернете пару человек у кого это нормально работало.
Аноним 10/04/23 Пнд 12:40:46 215501 325
image 280Кб, 1176x724
1176x724
Мне бы кряк или лучше пожизненную учётку на voxbox, там тысячи голосов персонажей из мультиков и не только... Не пиар, я же кряк прошу лол. Может где можно купить сворованную у хакиров?
Аноним 11/04/23 Втр 01:50:55 217590 326
>>215501
Попробуй удалить ключ реестра
HKEY_CURRENT_USER\SOFTWARE\iMyFone
Должны сброситься лимиты
Аноним 11/04/23 Втр 04:29:42 217800 327
изображение.png 2Кб, 327x47
327x47
Аноним 12/04/23 Срд 22:00:29 221179 328
>>215024
Надо подключать словари
Аноним 12/04/23 Срд 22:08:14 221202 329
>>213252
Чет не похоже, что любой ценой, после того, насколько они закрутили цензуру. Раньше GPT была развратной, как мокрощелка, потом её уже надо было разводить на интим, но это было интересно, а вчера она вообще давать перестала, разве что не говорит, что потратила на меня лучшие годы. Уже подумываю уйти от неё к RuBERT.
Аноним 12/04/23 Срд 23:54:41 221552 330
>>221202
Так дрочеры не рынок, они не дадут бабла.
>RuBERT
Хуя ты уникум. Как ответы?
Аноним 13/04/23 Чтв 00:04:36 221568 331
>>221552
Пока только мануал читаю.
Аноним 13/04/23 Чтв 00:19:53 221592 332
>>221179
Подскажешь как это сделать при использовании модели локально? Или дашь ссылку на гитхаю?
Аноним 13/04/23 Чтв 00:56:15 221638 333
>>221592
Я сам этого не делал, но видел в мануале у Demagog. Там есть экспериментальная версия со скриптом для Silero и у неё в ридми всё написано. Гугли
Аноним 13/04/23 Чтв 08:28:05 221943 334
Аноним 15/04/23 Суб 20:59:54 228388 335
image 109Кб, 316x400
316x400
>>217800
Спсибо, ты хороший анон, я не ожидал тут решения.
Пригодилась она. Как твоё мнение о проге?
Аноним 15/04/23 Суб 21:01:31 228391 336
>>217800
А она не включает платные функции питч и тп? Впринципе можно и без них лол.
Аноним 16/04/23 Вск 23:46:53 232392 337
>>88212 (OP)
Гайс, а есть какие-то варики ускорить тортойс? ахуенно работает, ахуенно мимикрирует голоса но я так понял, что он в отличии от других нейронок не создает модель голоса, а всегда заново анализирует, и дает результат
Аноним 17/04/23 Пнд 00:07:02 232455 338
>>215024
А в SSML оно умеет? Если да, то изи.
Аноним 17/04/23 Пнд 04:12:35 232783 339
SoftVC VITS Singing Voice Conversion

Поём как АИ. Тема любопытная, тред решил сделать, чтобы оставить на АИ-борде отпечаток истории развития АИ.

Наткнулся тут на АИ-каверы. Реддиторы с сабреlдита r/Yedits/ обучают АИ петь как медийныt личностb, в основном там правда рэперы, но тут уж кто на что горазд. На трубе множество АИ-каверов на Канье Уэста. Любопытно можно "фитануть" со звездой не снимая свитера, ну либо самому спеть как Эминем или там Рианна.

Ссылки-ссылочки:
Туториал по созданию кавера: https://www.youtube.com/watch?v=MlsNg1ugJMM[РАСКРЫТЬ]
Создать свой кавер: https://colab.research.google.com/drive/1128nhe0empM7u4uo5hbZx5lqjgjG1OSf
Модели голосов: https://docs.google.com/spreadsheets/d/1qzeFdpUPr7E0jOFwWSXd8LF30ZLjz1CSVEBiG8gPHTU/edit#gid=1792554832
melody.ml - можно использовать чтобы разбить песню на голос и инструментал

Натренькать свою модель на журчание ленивой струи мочи: https://colab.research.google.com/drive/1PLQW7P-qUj3UGc-8o6N3KB4pWfQN5pe1
Аноним 17/04/23 Пнд 13:52:45 233460 340
Пидорской моче жалко мест на борде, треды закрывает, хуесосина.
Аноним 17/04/23 Пнд 14:07:18 233508 341
>>233460
Смысл плодить треды на три поста, которые тонут в тот же день?
Аноним 17/04/23 Пнд 15:04:54 233644 342
>>233508
Смысла нет, но на доске с 10 тредами можно донести свою руку до контрол це и своими мокрыми дрожащими рученками скинуть шапку закрытого треда в целевой тред, нет?
Аноним 17/04/23 Пнд 15:06:35 233649 343
>>232783
>https://colab.research.google.com/drive/1PLQW7P-qUj3UGc-8o6N3KB4pWfQN5pe1
Это кстати не работает. Тупо ничего не делает на этапе после 44к (да и в 44к не конвертит просто создает папку пустую). А оригинальный китайский колаб с тренировкой меня отпугивает какой-то ебанутой сруктурой папок датасета.
Аноним 17/04/23 Пнд 18:19:02 234271 344
>>232783
нормальная темка
первый блин: https://www.youtube.com/watch?v=PPBtAwJZi4Q
сейчас треню на локалке модель одного из отечественных исполнителей
по факту отпишусь
Аноним 17/04/23 Пнд 18:21:55 234282 345
>>234271
Хреново что непонятно, что изменилось, то есть как было и какой голос накладывался поверх.
Аноним 17/04/23 Пнд 18:23:57 234289 346
Аноним 17/04/23 Пнд 18:25:48 234296 347
>>234282
ну а как поет рианна можешь найти сам, я думаю.
нейронка очень точно и тонко передала ее хриплость голоса на высоких и обрывы слогов, я был приятно удивлен
Аноним 17/04/23 Пнд 18:35:04 234336 348
>>234289
>>234296
Да, результат неплохой. Но это как я понимаю голос-ту-голос?
Хотелось бы больше экспериментов, например, с русским, или попробовать натянуть голос англичанки на русский текст.
Аноним 17/04/23 Пнд 18:43:30 234375 349
>>234336
да, все так, нейронка из одного голоса делает другой
я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается
а так, нейронке похуй, на каком языке делать переозвучку
сейчас треню русский голос, думаю, после 21 по мск смогу уже что-то скинуть сюда
Аноним 17/04/23 Пнд 19:47:05 234671 350
muzyka-molodyh-1.jpg 88Кб, 1068x650
1068x650
Аноним 17/04/23 Пнд 21:04:42 234897 351
show.png 17Кб, 270x120
270x120
>>234375
>я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается
Нет, дело в том что в английской речи отсутствуют звуки, поэтому появляется естественный акцент, ведь суть акцента в том что человек чей язык приучен к выдаче определенных звуков пытается своими звуками имитировать иностранные звуки, в его речи отсутствующие. Соответственно, лучший вариант для обучения использовать русских.

>>234671
В каком каллабе обучение запустил? У меня почему то не запускалось в том что по ссылкам. Мой совет - делай датасет не по вырванным из песен кускам, найди чистый голос. Это ускорит обучение и качество улучшит.
Аноним 17/04/23 Пнд 21:34:49 234978 352
>>234375
А работает только с песнями? Есть варик самому что-нибудь наговорить, а потом просто натянуть модельку на свой же собственный голос?
Аноним 17/04/23 Пнд 21:35:15 234981 353
>>234671
А это не фейк? Они и так фитились же. Ты давай что-нибудь очевидно говнарское типа ДДТ в исполнении моргенштерна или Летова, что он точно бы в жизни петь не стал.
Аноним 17/04/23 Пнд 21:36:16 234986 354
>>234978
На чем научишь на том и будет работать. Левитана только не трогай, мразь.
Аноним 17/04/23 Пнд 21:39:26 234997 355
>>234986
Большой датасет требуется? Вопрос именно в этом. Тип есть голос тян, которая просто говорит что-то. Сколько нужно минут её голоса, чтобы можно было её голос натягивать на свой или любой другой не песня.
Аноним 17/04/23 Пнд 21:49:36 235026 356
show.png 15Кб, 270x120
270x120
>>234997
Очевидно, чем больше тем лучше, плюс тебе надо его почистить будет, и тогда твоя мамка наконец сможет говорить "сынок, давай я пососу твой хуец, всегда об этом мечтала". Но думаю тут истина такая же как с любыми нейросвапами. Лору, допустим, можно тренировать на 1 фото, если мозг в черепе имеется тупо делаешь качественные фейссвапы. Здесь таким же методом можно получить хоть из одной минуты звука, но это конечно повлияет на результат. То есть, ты делаешь на своем материале, подбираешь для замены похожее что то, делаешь свап - добавляешь результат к своему датасету - делаешь еще. Но скорее всего такой мороки не нужно.
Аноним 17/04/23 Пнд 21:58:11 235051 357
>>234897
да, скорее всего придется вырезать голос из кусков интервью и блогов, с песен не очень получилось

делаю на своей пеке, в коллабе не пробовал

>>234978
можно самому что угодно наговорить и наложить голос, даже можно в лайве накладывать

>>234981
всм фейк, не понял тебя
это я из голоса инстасамки сделал голос моргена, там, где вышло хуево на бэк подкинул оригинал голос инстасамки, чтобы норм звучало

>>234997
дело в качестве исходников, а не в количестве
можно натренить на 50 файлах и будет заебись, можно закинуть 500 хуевых, и на выходе будет говно
Аноним 17/04/23 Пнд 22:00:43 235062 358
>>235051
>да, скорее всего придется вырезать голос из кусков интервью и блогов, с песен не очень получилось
Тебе надо их тогда к песням подмешать.

Делай кавер на летова!
Аноним 17/04/23 Пнд 23:18:08 235332 359
aicoversencoded.mp4 1462Кб, 196x414, 00:02:18
196x414
>>234336
Я пробовал, вот Канье на Окси, вышло уг.
Аноним 17/04/23 Пнд 23:29:21 235359 360
00075.png 2563Кб, 2112x1344
2112x1344
Аноним 17/04/23 Пнд 23:31:37 235372 361
aicoversnaencod[...].mp4 1085Кб, 720x660, 00:01:06
720x660
А вот этот заебись, скидывал в закрытом.

Оригинал Iggy Azalea Kream, АИ - Nicki Minaj.
Аноним 18/04/23 Втр 00:18:34 235480 362
image.png 574Кб, 830x492
830x492
Аноним 18/04/23 Втр 00:28:47 235497 363
>>235480
>>235372
>>235359
Я вообще не знаю кто это, какой смысл делать каверы ноунеймов на ноунеймов?
Аноним 18/04/23 Втр 01:01:32 235567 364
>>235497
ну обучи свою модель и делай какие тебе хочется каверы
мы послушаем
Аноним 18/04/23 Втр 03:02:41 235718 365
image 713Кб, 1277x720
1277x720
>>235497
Ну пиздец, а кого ты знаешь Лещенко и Киркорова,
Аноним 18/04/23 Втр 03:04:30 235720 366
>>235480
Хороший прогресс для начала. Сколько шагов?
Аноним 18/04/23 Втр 03:08:00 235723 367
show.png 15Кб, 270x120
270x120
>>235718
Да этих знаю. Можно чтобы лещенко спел с инстасамкой?

>>235567
Я бы рад. Там же на калабе сменили версию питона. Но после трех часов ебли и тупизны, даже я старый 57 летний дед смог. Правда я не понял один момент. Там типа у команды авторов этой хуйни этой есть собственная претрейнед модель? Она претренирована на английский? Или на неё вообще можно хуй забить? Или это как в стабле базовая модель - типа она нужна для лучшего качества?
Аноним 18/04/23 Втр 03:09:20 235724 368
>>235723
Инстасамку мы значит знаем, а Никки Минаж нет? Ладно там Игги Азалию, хотя она в вебм тредах с фанси постилась раньше.
Аноним 18/04/23 Втр 03:20:32 235732 369
show.png 14Кб, 270x120
270x120
>>235724
>Инстасамку мы значит знаем
Так её вон запрещают, в новостях говорят.

>Игги
Честно думал будет Игги Поп.
Аноним 18/04/23 Втр 04:59:42 235785 370
>>235359
Где нормальность? Голоса моргенчлена даже близко нет. Ты хоть с параметрами играйся иногда. Ну и своим протыкласникам включай на оценку раз сам не понимаешь.
>>235480
Тут чуть лучше, но то ли ты модель хуево надрочил, то ли акапеллы с коричневыми нотами вычленяешь. Либо что более вероятно и то и другое.
Аноним 18/04/23 Втр 07:49:31 235867 371
>>235785
Я тебя вроде попросил уебать со своей тупорылой "критикой" нахуй? Хули ты опять вылез?
Аноним 18/04/23 Втр 08:09:31 235906 372
Ну и? Где бесплатная читалка с интонацией для Александр не любищего читать а только слушать речь?
Аноним 18/04/23 Втр 10:11:28 236055 373
>>235785
я думаю и то и то
как доставать пиздатые акапеллы?
Аноним 18/04/23 Втр 10:14:25 236062 374
>>235720
мне не очень нравится, модель обучалась на акапеллах из его песен, а он хуй пойми как везде поет, то с автотюном, то без
100к
Аноним 18/04/23 Втр 10:35:35 236131 375
А посоветуйте прогу или сайт, чтоб убирать лишние звуки задние и оставлять только голоса, даже не из песен, а из шоу мне надо реплики.
(Это не подходящий тред для такого вопроса, но мало ли, в s точно не ответят.)
Аноним 18/04/23 Втр 10:46:24 236152 376
Аноним 18/04/23 Втр 11:03:25 236191 377
>>236062
Ну слушай, не идеально разумеется, но и другие модели тоже не супер, это всё же "пионерское" поколение, а у тебя для первого раза как миумум узнаётся уже, чтоу же хорошо.

Алсо список моделей прилично пополнился в гугл-доке.
Аноним 18/04/23 Втр 11:04:10 236193 378
Аноним 18/04/23 Втр 11:16:06 236202 379
>>235867
Ебать ты порвался. Алсо чини детектор.
Аноним 18/04/23 Втр 11:42:40 236269 380
>>235867
Жоско ты его приложил.
Аноним 18/04/23 Втр 13:47:07 236579 381
>>236131
Если вдруг ты еще не делаешь этого, первый шаг это вырезать фронтальный канал из многоканального аудио, именно в нем обычно голос и минимум посторонних звуков.
Аноним 18/04/23 Втр 18:11:15 237356 382
>>235723
Дед, подскажи рабочий способ натренить свою модель. С ангельскими скучно играться.
Аноним 18/04/23 Втр 18:26:54 237389 383
image.png 13Кб, 904x212
904x212
show.png 13Кб, 270x120
270x120
>>237356
Пока не знаю у меня уже полтора часа сопли жует. Вообще из-за обновления питона на калабе почти все дневники упали. Но я сделал бочку и украл ячейки. Но хз хватит ли времени на тренировку.
Аноним 18/04/23 Втр 19:55:08 237644 384
image.png 10Кб, 720x127
720x127
>>88212 (OP)
Эй, моргенпорридж. Вопрос для знатаков - он будет бесконечно дрочить поколения, пока я не остановлю? А то уже 3 часа, меня в сон клонит, сердце уже болит от волнения за Лёву.
Аноним 19/04/23 Срд 01:48:30 238453 385
изображение.png 199Кб, 1488x925
1488x925
>>228388
Версия 4.1 часто отдаёт мусор вместо голосов, в 4.2 вроде пофиксили это. Генерация текста больше 2к символов тоже починили в 4.2
>>228391
> А она не включает платные функции питч и тп? Впринципе можно и без них лол.
Эти функции работают только с "Real People" голосами. Похоже остальные голоса генерятся онлайн

Кряк для 4.2
https://anonfiles.com/Ac9al0mazf/VoxBox_exe
Вирустотал
https://www.virustotal.com/gui/file/9d2f0b79c9cfda638e0fccc3a753c6215795567d03e1e98e52936ff0cdfafbe1
Аноним 19/04/23 Срд 06:15:13 238630 386
>>237389
>>237644
Короче это хуйня не для колаба, одна генерация - 1 час. То есть, 3 генерации в сутки и сосо. Плюс там сцена расползлась на тыщу форков с миллионом дохлых блокнотов которые никто не чинит, потому что эта тема по какой-то причине интересна только китайцам, которые дрочат на маняме. Так что 80% вопросов там решается на китайском.
Аноним 20/04/23 Чтв 00:26:05 241205 387
>>235359
сколько тренил по времени модель и на каких треках моргена?
Аноним 20/04/23 Чтв 02:32:46 241518 388
>>241205
19 часов 3070ti
около 30 треков было
Аноним 20/04/23 Чтв 03:24:27 241576 389
>>241518
спасибо! это сколько примерно итераций (steps) вышло? 30к+?
Аноним 20/04/23 Чтв 12:26:39 242163 390
>>241576
100к получилось
но процесс не полностью выполнился, мне впадлу ждать было дальше, после 100к отключил
Аноним 20/04/23 Чтв 15:51:06 242731 391
>>242163
Неплохо! Спасибо! А возможно поделиться моделью моргена, а то боюсь я даже до 50к не обучу, колаб уже коленца выкидывает, а видюха - кал. Не смогу локально(
Аноним 20/04/23 Чтв 20:25:06 243461 392
>>242731
Чувак, зачем ты попрошайничаешь чужой труд? Хоть бы 500р ему предложил или тыщи две.
Аноним 20/04/23 Чтв 22:06:44 243703 393
Screenshot4.png 22Кб, 851x260
851x260
Screenshot5.png 49Кб, 851x503
851x503
Аноним 20/04/23 Чтв 22:28:20 243770 394
>>243461
ну не к тебе ж вопрос был. лулз
Аноним 20/04/23 Чтв 23:21:12 243927 395
>>243703
Что-то у них даже в тестовых аудио бывают левые шумы.
>Bark has the capability to fully clone voices - including tone, pitch, emotion and prosody. The model also attempts to preserve music, ambient noise, etc. from input audio. However, to mitigate misuse of this technology, we limit the audio history prompts to a limited set of Suno-provided, fully synthetic options to choose from for each language. Specify following the pattern: {lang_code}_speaker_{number}.

>opensource

Ебало?
Аноним 20/04/23 Чтв 23:25:04 243936 396
>>243927
ебать хуета, пропустил это как лох на волне "локального хайпа"
видимо не видать нам нормального tts :/
Аноним 21/04/23 Птн 02:12:26 244150 397
>>232455
Умеет. Как изи то, как мне сделать это автоматически на питоне, например?
21/04/23 Птн 08:42:29 244326 398
>>238453
Будь добр, скажи сайт с которого ты кряк для версии 4.2 скачал.
Аноним 21/04/23 Птн 10:38:34 244389 399
Аноним 21/04/23 Птн 10:47:17 244410 400
>>244389
Вот с такими жадными пидорахозумерами и приходится сидеть в тредах. Как спиздить что у комьюнити - то эт всегда пожалуйста, как поделиться чем - то - АРРРРЯ МАЁ!!!!1
Аноним 21/04/23 Птн 13:02:32 244568 401
>>244150
Ну, тебе придётся детектить числа и оборачивать их в SSML тэги. Это элементарно. Ну а насчет английских слов... Тут поинтереснее. Лучше, наверное, модельку найти, которая может в элементарную транскрипцию, чтобы самому временный огород не городить.
Аноним 21/04/23 Птн 13:57:03 244652 402
>>244410
ну-ка покажи, где я что-то спиздил?
Аноним 21/04/23 Птн 14:23:01 244697 403
show.png 15Кб, 270x120
270x120
>>244410
Попрошайка, спох. Вот поэтому вас спидорах визгливых даже зумеры попускают.
Аноним 21/04/23 Птн 16:04:36 244904 404
image.png 344Кб, 1261x619
1261x619
>>244697
Соевый либераха порридж, ты? Помню как обоссывал тебя на митинге сисяна
Аноним 21/04/23 Птн 18:42:31 245173 405
Аноним 22/04/23 Суб 03:30:16 246425 406
image.png 44Кб, 1254x288
1254x288
>>243936
Вроде есть способ немного улучшить результат генерации.
Аноним 23/04/23 Вск 22:31:51 251908 407
59c028a00d05136[...].jpg 189Кб, 1200x720
1200x720
Аноним 24/04/23 Пнд 02:27:01 252727 408
>>251908
Вот. Откуда картавость появилась? Это ведь та же самая твоя модель.
Аноним 24/04/23 Пнд 03:02:21 252827 409
>>252727
Ну Семён Семёныч, а ну ка заканчивайте с самоподдувом. Неровен час и снесу к хуям твой канал с пацанской музыкой про тазы по АП. В соседних тредах и без тебя хватает аватарочных вниманиеблядей. Хочешь поделиться - ебашь шебм
Аноним 24/04/23 Пнд 03:38:40 252907 410
Аноним 24/04/23 Пнд 03:41:35 252914 411
>>252827
Снеси, мамкин дартаньян
Ебал я с вебм танцевать, не нравиться - не заходи и не смотри с трубы, мне похуй
Аноним 24/04/23 Пнд 03:45:20 252927 412
Аноним 24/04/23 Пнд 06:30:54 253203 413
>>252907
Так откуда картавость? Послушай внимательно там местами буква "р" сглатывается.
Аноним 24/04/23 Пнд 06:31:29 253205 414
Аноним 24/04/23 Пнд 09:35:44 253432 415
>>253203
> Так откуда картавость? Послушай внимательно там местами буква "р" сглатывается.

Всё просто. Картавость появляется, когда ты меняешь голос речи, сгенерированной другой моделью. Например - в VITS.

>>242731
> А возможно поделиться моделью моргена

У него нет "модели моргена". Он не генерирует его голосом, а меняет существующий. Ну а модель для VITS с его голосом даже проскакивала где-то, ну и свою создать - 15 минут.
Аноним 24/04/23 Пнд 09:51:12 253448 416
>>157696
Сразу видно, что ты никогда не играл в трёшку. Это отличный голос.
Аноним 24/04/23 Пнд 11:06:45 253590 417
show.png 9Кб, 270x120
270x120
>>253432
Спасибо за тупоебские замечания, но я уже сам генерировал и получше тебя (судя по твоему пуку) понимаю о чем речь. Мне интересен его ответ.

>>253432
>Он не генерирует его голосом,
А мы и не говорим про генерацию, тупое животное, сюда витс перенеслир просто потому что модеру похуй ттс это или войсвап. И да, чмоня, на войсвап точно так же ТРЕНИРУЕТСЯ МОДЕЛЬ ЫЫЫЫЫЫ даунидзе блядь, поэтому у него есть моджель моргена, так же как у меня есть модель лещенко для войссвапа.
Аноним 24/04/23 Пнд 12:51:47 253920 418
>>253590
>>252727
в оригинальной акапелле чел сам картавит, модель просто повторяет
Аноним 24/04/23 Пнд 12:53:56 253932 419
>>253432
очень охота посмотреть на то, как ты создаешь модель за 15 минут
Аноним 24/04/23 Пнд 13:24:28 254041 420
>>253920
Понял. Я просто подумал, что это из-за того что ты русский кинул на английский, а у них там р не выговаривают как в русском.

Еще вопрос: ты являешься наносеком? В какую сумму, условно, ты бы оценил модель типа моргена.
Аноним 24/04/23 Пнд 13:42:25 254084 421
>>254041
изначально то песня русская, язык тут вообще не при чем.
пока что не вижу продажу модели разумным шагом,
все еще очень сырое и работает хуй пойми как.
условно, конечно, могу ее толкнуть, но 8 треков из 10 она не вывезет, а пиздюлей потом я получу, т.к. продал хуйню
и это касается всех моделей на данный момент
я на данный момент натренил двух моргенов, один умеет только петь, а второй только говорить, разговорного могу скинуть, мне не жалко, но там всего 1к шагов
Аноним 24/04/23 Пнд 13:46:33 254093 422
>>254084
Мне морген не нужен, мне нужна цена твоей тренировки модели на моем чистом материале. Допустим все ттх такие же как ты указал у моргена, выше.
Аноним 24/04/23 Пнд 13:56:47 254109 423
>>254093
если делать модель на 100к, которой я делаю все треки сейчас, то я бы взялся от десяти к деревянных, там работы на 2-3 суток
Аноним 24/04/23 Пнд 14:58:29 254274 424
>>254109
>если делать модель на 100к, которой я делаю все треки сейчас, то я бы взялся от десяти к деревянных, там работы на 2-3 суток
Тебе для этого надо не в России жить. 2-3к топ. Поэтому я и спросил про наносековость. Обычный россиянин 30-40к получает в месяц, на несезонной работе. Ты сказал у тебя на обучение ушло 19 часов. Но я не оспариваю твою цену. Просто озвучил мнение. Ты у себя контакты на ютубе оставь, на фейкопочту. Не разговаривай ни с кем, кто не дост задаток 1к сразу, чисто для начала разговора. Если не хочешь с троллями общаться.
Аноним 24/04/23 Пнд 14:59:27 254277 425
>>254109
>там работы на 2-3 суток
Или ты подразумеваешь, что сам будешь датасет делать по источникам?
Аноним 24/04/23 Пнд 15:12:27 254308 426
>>254274
>>254277
мы оба прекрасно понимаем, как легко и быстро можно монетизировать модель, поэтому цену в 2-3к вижу ну уж совсем неразумной
какая разница где жить и работать, если мы в инторнетах с тобой сидим
мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая
Аноним 24/04/23 Пнд 15:27:28 254354 427
>>254308
>мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая
Ну вот это другой разговор. У меня просто точно такая же ситуация. Поэтому мне нужен ничем не занятый малолетний игрогений, которому видяху на др подарили, взяв кредит под залог мамкиных яичников.
Аноним 24/04/23 Пнд 19:13:04 255035 428
Аноним 24/04/23 Пнд 19:27:53 255098 429
Screenshot2.png 65Кб, 1321x528
1321x528
>>255035
имейте ввиду что это хня докачивает несколько моделей, и это для одного спикера а их там десятки
бляздец короче.
Аноним 24/04/23 Пнд 19:33:11 255115 430
Screenshot4.png 45Кб, 1321x434
1321x434
>>255098
оп и OOM получен, если у вас rtx 3070 - даже не пытайтесь.
Аноним 25/04/23 Втр 14:46:49 257610 431
image.png 10Кб, 636x116
636x116
Может кто пояснить где я обосрался?
Аноним 25/04/23 Втр 18:49:07 258234 432
изображение.png 3Кб, 540x84
540x84
Аноним 25/04/23 Втр 18:50:40 258238 433
image.png 46Кб, 1194x319
1194x319
>>258234
Без тупых вопрос я не можу это я пофиксил и щас выдаёт это
Аноним 25/04/23 Втр 19:42:59 258393 434
>>258238
дядь, закидываеш все в чатгопоту и получаешь фикс всех своих проблем, ну как вчера родился, ейбогу
Аноним 25/04/23 Втр 19:59:26 258426 435
>>258393
В ответ на высказанную реплику я могу сказать, что не согласен с таким подходом к решению проблем. Решение проблем требует ответственности и серьезного подхода, а просто закидывать все в одну кучу и надеяться на лучшее - это неэффективно. Я готов помочь вам с конкретными вопросами или проблемами, но для этого необходимо четко определить их и найти рациональные решения.
Аноним 25/04/23 Втр 23:00:47 258953 436
изображение.png 21Кб, 899x254
899x254
Аноним 26/04/23 Срд 08:09:26 259591 437
show.png 5Кб, 270x120
270x120
>>258953
Тебе поговорить не с кем, падаль?
Аноним 26/04/23 Срд 15:15:19 260254 438
>>88212 (OP)
Нужно программой озвучить книги и другие тексты, с ударениями, может даже эмоциями, хз до чего уже прогресс дошёл. Тренировать свои собственные голоса (пока?) не хочу. Дайте ссылку на готовое оффлайн решение.
Аноним 26/04/23 Срд 18:24:36 260679 439
show.png 6Кб, 270x120
270x120
Аноним 27/04/23 Чтв 20:01:39 264042 440
pupu.mp4 20599Кб, 300x300, 00:09:02
300x300
>>232783
Искал тред по сетке, а нашел только этот пост. Эта хуйня достойна большего
Аноним 28/04/23 Птн 02:36:16 265131 441
image.png 30Кб, 688x358
688x358
>>260254
Скинешь суп с флажком в жопе, дам ссылку на годный 100% рабочий коллаб, куча моделей на русском, казахстанском и американском языках, настраивается с пол пинка
Аноним 28/04/23 Птн 04:48:47 265310 442
>>265131
Эта ссылка выше есть, плюс он вообще не это спрашивает, так что съеби в МФ, животное.
Аноним 28/04/23 Птн 12:39:09 265809 443
>>265310
не верищи, без тебя разберемся что кому нужно, я человеку предложил, пусть ищет тогда по всему интернету
Аноним 28/04/23 Птн 15:17:27 266088 444
>>265809
Ебало подвали, ну и флагшток из жопы вытащи своей, а то заражение в мозг пошло.
Аноним 28/04/23 Птн 21:20:44 267115 445
>>266088
есть хуй, будешь?
Аноним 29/04/23 Суб 01:30:50 267630 446
Screenshot1.png 38Кб, 898x406
898x406
Аноним 30/04/23 Вск 23:03:05 272459 447
>>88750
Звучит приятно. Что за модель?
Аноним 30/04/23 Вск 23:34:09 272530 448
>>264042
долго обучал so-vits? и на датасете из постола тупа?
Аноним 01/05/23 Пнд 00:09:48 272649 449
tualet.mp4 8083Кб, 288x256, 00:04:49
288x256
>>272530
>долго
День в коллабе. на том видосе около 10к эпох.
Дотренил до 50к эпох - результат не сильно лучше. Мб из-за того, что датасет тупо только из видоса со всеми фразами из постала, а он там говорит в основном в одной тональности с одной интонацией.
Аноним 01/05/23 Пнд 01:55:40 272781 450
>>272649
Поделись моделью пожалуйста.
Аноним 01/05/23 Пнд 04:39:15 272858 451
Аноним 01/05/23 Пнд 14:05:08 273386 452
>>272858
>не опенсорс
Уноси обратно.
Аноним 01/05/23 Пнд 14:54:19 273494 453
>>273386
>не попенсорс уииии
Тред про ттс, а не про то, как ты прыщи давишь.
Аноним 01/05/23 Пнд 15:01:59 273501 454
>>272781
anonfiles. com/ 4c409bo1z3/ duderus_pth
Аноним 01/05/23 Пнд 16:04:25 273629 455
>>273494
Чел, если хуитку нельзя запустить у себя или хотя бы в коллабе, она бесполезна.
Аноним 01/05/23 Пнд 16:36:22 273701 456
Аноним 02/05/23 Втр 21:09:32 276113 457
>>273501
Здорово. Куда её дальше запихивать?
Аноним 02/05/23 Втр 21:23:00 276144 458
>>276113
в очко, например
зачем ты просишь модель, если даже не знаешь, как это все работает
Аноним 02/05/23 Втр 21:44:15 276206 459
>>276144
Голос понравился, и по-русски говорит. То что нужно для озвучки длинных текстов.
Аноним 03/05/23 Срд 15:14:58 277450 460
>>273501
Как ты тренил эту хуйню, я джва часа пытался, ебучий коллаб ошибками весь еблет мне обсыпал.
Аноним 03/05/23 Срд 15:28:50 277462 461
Аноним 03/05/23 Срд 15:40:36 277482 462
>>277462
Спасибо. Скажи ещё, у тебя датасет был одним файлом или кучей мелких? Имеет это вообще значение или нет?
Аноним 03/05/23 Срд 16:05:46 277529 463
>>277482
Много файлов не длиннее 10 секунд
Аноним 03/05/23 Срд 20:41:54 278058 464
>>277462
Извините, я знаю, что дегенерат, но все же наставьте на путь истинный, где все же в дальнейшем можно применить модель созданную в данном колабе?
Аноним 03/05/23 Срд 20:45:47 278062 465
>>278058
Зачитав свой ссаный текст и наложив на свой ссаный голос, чтобы он стал менее ссаным. То есть, конкретно ты - нигде.
Аноним 03/05/23 Срд 20:54:10 278075 466
>>278062
Понял спасибо, я почему то подумал, что это tts, а это именно из темы про песенки вылилось. Двачую за подсказку.
Аноним 03/05/23 Срд 21:29:15 278122 467
kr.mp4 10482Кб, 512x512, 00:02:22
512x512
>>278075
Схуяли только про песенки? Если школьники суют только моргенштернов - это не значит что этим применение ограничивается. Однако, это voice to voice, а не text to voice.
Ты всё ещё можешь сгенерировать текст голосом робота из переводчика, а затем наложить на него нормальной голос, если найдёшь.
Аноним 03/05/23 Срд 22:26:25 278250 468
>>278122
>Схуяли только про песенки?
С того что только на фоне песенок гличи не слышно. Он норм ложится только на монотонный голос.
Аноним 03/05/23 Срд 23:07:42 278328 469
kr4.mp4 22779Кб, 512x512, 00:05:14
512x512
>>278250
>С того что только на фоне песенок гличи не слышно
От части да, но
>Он норм ложится только на монотонный голос
Он норм ложиться на похожий голос и манеру речи. Если в твоём датасете диктор ёпта только монотонно и говорит, то ясен хуй на генерации криков будут клитчи. Как тут.
Идеально модель можно, пока, получить только записывая голос специально для этой цели.
Аноним 03/05/23 Срд 23:40:39 278385 470
>>278328
Если ты добавишь в датасет с монотонной речью крики - ты получишь хуйню. Дело не в манере речи, а в том, как модель накладывается.
Аноним 04/05/23 Чтв 00:01:02 278399 471
>>278385
>ты получишь хуйню
Это если тренировать 5 минут. Если заебаться и потренить пару дней - всё будет ок.
Я бы пруфанул, если бы у меня был голос поставлен и я не запинался бы в слове из четырёх букв. А так просто иди нахуй.
Аноним 04/05/23 Чтв 02:50:20 278547 472
>>278399
Ну ты же пиздабол просто. Причем твой ссаный голос. Датасет откуда угодно можешь вырвать, так же как и целевой материал. Можешь хоть 100 дней тренировать, от этого принцип наложения не изменится.
Аноним 04/05/23 Чтв 04:47:05 278575 473
>>278250
Это че он за говно тогда, когда даже древний пониебский проект нормально голосами поней говорил.
Аноним 04/05/23 Чтв 08:17:21 278670 474
>>278575
>Это че он за говно тогда, когда даже древний пониебский проект нормально голосами поней говорил.
Там голоса не естественные, кучи частот нет, не тупи. Плюс не путая локовость рук и реальную выдачу.
Аноним 04/05/23 Чтв 12:52:31 279319 475
Хуйню для чтения книг уже изобрели?
Аноним 04/05/23 Чтв 14:35:35 279504 476
Аноним 04/05/23 Чтв 18:17:33 279815 477
>>279504
А не жирно деньги отдвавать за машинное чтение?
Аноним 04/05/23 Чтв 18:19:58 279818 478
>>279319

Называется Яндекс читалка.
Аноним 14/05/23 Вск 15:08:21 299842 479
Как сделать видео как кто-то что-то поет как в тиктоке
Аноним 14/05/23 Вск 15:11:35 299845 480
>>299842
Научится читать.
Аноним 14/05/23 Вск 15:21:53 299870 481
>>299845
так ка к сделать то
Аноним 18/05/23 Чтв 09:37:48 306902 482
Бамп, а то утонем.
Аноним 18/05/23 Чтв 16:10:49 307576 483
Аноним 18/05/23 Чтв 16:12:19 307580 484
Аноним 18/05/23 Чтв 23:14:21 308580 485
artworks-cYdoZS[...].jpg 25Кб, 500x500
500x500
>>88212 (OP)
БЛЯТЬ, посмотрите блять, ну есть же ахуенный тортойс ттс, который работает исправно, вот видос где челик рассказывает как его ахуенно улучшили, и теперь он генерирует аудио с нормальной скоростью https://www.youtube.com/watch?v=8i4T5v1Fl_M&ab_channel=MartinThissen
Почему никто не обсуждает?
Аноним 18/05/23 Чтв 23:31:11 308603 486
images.jfif 3Кб, 271x186
271x186
>>308580
Кста, раз уж вы это прочитали, помогите пожалуйта, был тортойс старый, который медленно генерировал но уверенно - https://colab.research.google.com/drive/1wVVqUPqwiDBUVeWWOUNglpGhU3hg_cbR?usp=sharing И вот он запускался без интерфейса, и это ахуенно было. А можете подсказать, че как сделать, чтобы тортойс фаст https://colab.research.google.com/drive/11FG_ZRdAZ09Euoqc40RiRZyLaRXqjM7b?usp=sharing не через интерфейс работал, а просто в текстовом варианте?
Аноним 19/05/23 Птн 10:49:24 308940 487
Untitled.webm 520Кб, 400x400, 00:00:10
400x400
Аноним 19/05/23 Птн 13:17:02 309095 488
>>308580
>Почему никто не обсуждает?
Подостыли как-то. А что там улучшили? Я репо клонировал, и не вижу там запуска уеб-сервиса.
Аноним 19/05/23 Птн 13:27:24 309107 489
Аноним 19/05/23 Птн 16:28:56 309416 490
изображение.png 40Кб, 983x536
983x536
изображение.png 16Кб, 842x257
842x257
>>309107
>через стимлит
Окей, ясно-понятно. Я просто привык всё логально запускать.
>medium.com
Ну ты и пидр.
Аноним 20/05/23 Суб 12:53:24 310850 491
Вопрос не совсем по сабжу, но связанный.
Есть 50Гб голосовых записей.

Есть ли решение на базе нейросетей, чтобы перевести эти записи
в текстовый формат
Собеседник 1: бла-бла
Собеседник 2: пук-пук-пук

Решение должно крутится на моей пекарне или инфраструктуре
Аноним 20/05/23 Суб 16:43:56 311122 492
Можно ли как-то подогнать существующие образцы голоса под всякие эротические звуки, стоны и т.п.? Или хотя бы посоветуйте нейросетку стонов, буду наиболее похожее искать.
Аноним 20/05/23 Суб 17:16:58 311190 493
>>311122
Есть прям в этот треде.
Аноним 20/05/23 Суб 18:20:12 311297 494
>>311122
тогда уж и шопота тоже
(за генеративным ASMR будущее хех)
Аноним 20/05/23 Суб 18:24:14 311301 495
>>310850
в сторону silero models посмотри, вроде лайтовая и шустрая штука, правда я stt в ней не тестил, меня интересовала больше задача озвучивать текст (правда для озвучки она ударения плохо оч ставит, приходится сразу гонять скрипт ударений, а потом озвучивать)
Аноним 20/05/23 Суб 21:25:24 311647 496
>>308940
едрить голос железный, Bark поприятней голос генерит, но шумит блин, шо рация времен второй мировой
Аноним 20/05/23 Суб 21:38:06 311666 497
>>267630
вот нафига? Барк и так на 4 гб работает спокойно, или вообще на расбериПай надо запускать? (та и вопрос скорости открытым остается, барк не сказать что быстрый, а больше всего раздражает ограничение по времени, в один присест до 38 "токенов", или че там оно в консоли считает - примерно 13 секунд, дальше тупо рубит
Аноним 20/05/23 Суб 21:41:45 311673 498
>>255098
модели общие, для спикеров только настройки, а чтоб запускать на 8 и меньше гигах надо включить "маленькие модели" тогда и докачивает в пару раз меньше, и в 4 Гб влазит вроде
Аноним 20/05/23 Суб 21:49:28 311688 499
>>243927
так клонинг чисто на уровне АПИ залочен, давно уже есть репы с разлоченым клоном, правда не пробовал пока еще клонинг...
Аноним 20/05/23 Суб 21:57:08 311709 500
>>213252
>200 гиг врама
Я думаю они не на видяхах а на тензорблоках гоняют, хотя хз...
Аноним 20/05/23 Суб 22:18:30 311766 501
>>311190
я неосилятор походу, тред пролистал, но чет не вижу чем генерили люди...
Аноним 20/05/23 Суб 23:35:00 311893 502
Untitled.webm 572Кб, 480x360, 00:00:13
480x360
>>311647
>голос железный
зависит от того какой исходник возьмёшь
не отличить от оригинала https://youtu.be/l6LjQ0yLxyE
Аноним 21/05/23 Вск 04:40:14 312189 503
>>310850
Вишпер.
>>311301
>silero models
Там русека для STT нет.
>>311688
Само собой это шиза. Но лично я копаться в коде не хочу.
>>311709
Ну так а тензорные блоки какую рам используют?


Кто будет катить тред? А то тонем.
Аноним 22/05/23 Пнд 12:16:18 314759 504
Аноним 22/05/23 Пнд 14:18:49 314924 505
>>310850
> Есть ли решение на базе нейросетей, чтобы перевести эти записи
> в текстовый формат
> Собеседник 1: бла-бла
> Собеседник 2: пук-пук-пук
Нет. Такого пока не создали.
Аноним 22/05/23 Пнд 14:37:54 314950 506
Аноним 22/05/23 Пнд 21:32:06 315643 507
>>314924
Ну в смысле? Нейросетка не способна распознать, что на записи два разных голоса присутствуют? Возможно нет в попенсурс доступе. Я конечно, понимаю, что архитектура в данном случае ещё сложнее будет, часть просто должна уметь распознавать, а другая часть ещё и отличать и узнавать голос
Аноним 04/06/23 Вск 04:41:46 340649 508
>>273501
Нужен config.json он постоянно апдейтится, а какой именно ты использовал, хз... Кароче, скинь пожалуйста config.json свой... И, ты использовал so-vits-svc?
Аноним 04/06/23 Вск 04:42:43 340650 509
Аноним 04/06/23 Вск 17:08:53 341381 510
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов