/ai/ - Искусственный интеллект

Вопросов кожаных мешков тред Аноним 14/05/23 Вск 11:27:57 № 299474 Ответ

fde636c44dae155[...].jpg 294Кб, 1000x600

Если вы хотите задать какой-то мелкий вопрос - используйте для этого данный тред или найдите профильный треде в каталоге.

Утонувшие треды помещаются в архив.

О разделе:

1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.

2. AICG тред перекатывается после достижения предела в 1500 постов. Любители чрезмерно самовыделиться идут в /asylum/.

3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.

4. Это доска преимущественно технического направления. Для откровенного NSFW-контента выделена отдельная доска - /nf/, эротика остаётся в /ai/. Так, порнография и голые мужики теперь отправляются в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.

Пропущено 205 постов
205 с картинками.

В тред Скрыть

Пропущено 1497 постов, 205 с картинками.

Аноним 02/05/24 Чтв 20:56:48 № 724368

>>724018
как скомпилировать все фалы питон я нечего не понимаю

Аноним 02/05/24 Чтв 21:18:24 № 724385

photo2024-05-02[...].jpg 108Кб, 1024x768

В какой нейонке в таком стиле сделать фотки ?

Аноним 02/05/24 Чтв 22:10:35 № 724443

Первое официальное музыкальное видео, сделанное с помощью OpenAI Sora:
Washed Out - The Hardest Part
https://www.youtube.com/watch?v=-Nb-M1GAOX8

Автор утверждает, что почти никакой постобработки нет, лишь самый минимум —зато сам ролик склеен из 55 отдельных кусочков (выходит по 4.4 секунды в среднем).

Баннер для AI Аноним 15/10/23 Вск 21:08:15 № 520258 Ответ

Пришло время пилить баннер для раздела /ai/. Постим свои идеи и варианты баннеров в треде.

Технические требования:
Формат jpg, gif (желательно)
300х100 пикселей
Не более 300 кб

Пропущено 63 постов
63 с картинками.

В тред Скрыть

Пропущено 120 постов, 63 с картинками.

Аноним 29/02/24 Чтв 22:40:21 № 655216

c8ed19322774429[...].jpg 652Кб, 896x1152

4583b3309ce6439[...].jpg 3155Кб, 3584x4608

Мод, смотря что по тематике.

Аноним 05/04/24 Птн 12:11:28 № 693902

ну пусть сам ии и нарисует

Аноним 02/05/24 Чтв 00:11:42 № 723736

назвал тред судьба нейросетей жалуется на судьбу ананимаса

Stable Diffusion тред X+82 /sd/ Аноним 28/04/24 Вск 14:13:48 № 720590 Ответ

Stable Diffusion тред X+82
======================================
Предыдущий тред >>714946 (OP) https://arhivac.top/?tags=13840
------------------------------------------
схожие тематические треды
- NAI-тред (аниме) >>719192 (OP)
- технотред >>639060 (OP)
========================
Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях.
Полный функционал в локальной установке (см. ниже)

Альтернативный онлайн-генератор №1: https://dezgo.com/txt2img
Альтернативный онлайн-генератор №2: https://civitai.com/ (create после регистрации)
Альтернативный онлайн-генератор №3: https://tensor.art/ (Workspace)

⚠️ Стандартные модели stable diffusion от Stability AI значительно отстают по качеству от кастомных моделей (см. civitai ниже).

🔞 Без цензуры и полный функци_анал: только ПК-версия
===========================================
🖥УСТАНОВКА НА ПК
WebUI от Automatic1111
https://teletype.in/@stablediffusion/PC_install_SD
------------------------------------------
👉 Для новичков - простой в работе WebUI Fooocus
https://github.com/lllyasviel/Fooocus?tab=readme-ov-file#download
------------------------------------------
Портативная версия альтернативного WebUI от Comfy (запуск с одного из run.bat файлов)
https://github.com/comfyanonymous/ComfyUI/releases
Примерные workflow для ComfyUI (можно загружать напрямую из картинок)
https://comfyanonymous.github.io/ComfyUI_examples/
------------------------------------------
Для тех, у кого видеокарта не тянет - ускоренная генерация на ЦПУ
https://github.com/rupeshs/fastsdcpu
===========================================
📚 РАЗЛИЧНЫЕ МОДЕЛИ (И МНОГОЕ ДРУГОЕ) 👇
https://civitai.com/
------------------------------------------
📊 ПАРАМЕТРЫ И НАСТРОЙКИ ГЕНЕРАЦИИ 👇
https://teletype.in/@stablediffusion/samplers_steps
===========================================
🎨 ГАЙД ПО СОСТАВЛЕНИЮ ЗАПРОСА, СТИЛИ
https://teletype.in/@stablediffusion/artists_for_prompts

Пример запроса (Промпт): a tiger, wildlife photography, high quality, wildlife, soft focus, 8k, national geographic, photograph by nick nichols
------------------------------------------
♾️РАЗЛИЧНЫЕ ХУДОЖЕСТВЕННЫЕ СТИЛИ (С ПРИМЕРАМИ) 👇
https://supagruen.github.io/StableDiffusion-CheatSheet/
https://www.artvy.ai/styles
------------------------------------------
💻ЧТО ТАКОЕ CONTROLNET И КАК ЕГО ИСПОЛЬЗОВАТЬ
https://www.itshneg.com/controlnt-upravlyaj-pozami-v-stable-diffusion/
==========================================
🧠 ОБУЧЕНИЕ ПО СВОИМ КАРТИНКАМ 👇
https://dtf.ru/howto/1660668-obuchenie-modeli-s-pomoshchyu-lora
https://civitai.com/models/train

Пропущено 109 постов
109 с картинками.

В тред Скрыть

Пропущено 358 постов, 109 с картинками.

Аноним 02/05/24 Чтв 22:50:47 № 724464

>>724445
У меня такая же херня сыпет c лорами на детали в ksampler(inspire), хотя лоры все равно работают. В обычном ксемплере всё ровно.

Аноним 02/05/24 Чтв 22:59:37 № 724468

>>724461
> Везде где видел или они ли точно такие же или 4х
Ставь в обе хуйни размеры равные латенту. Если эти target_width и прочее что-то и делали на базе, то на кастомах они в большинстве случаев ухудшают результат, если туда пихать значения отличающиеся от латента. Впрочем и саму эту ноду нет необходимости использовать, т.к. большинство кастомов всё равно предпочитают одинаковый промпт в g и l, тем более пони с её тегами.

Аноним 02/05/24 Чтв 23:06:41 № 724473

>>724468

спасибо

NovelAI and WaifuDiffusion тред #142 /nai/ Аноним 27/04/24 Суб 03:02:50 № 719192 Ответ

Генерируем тяночек!
Прошлый >>708540 (OP) https://arhivach.top/thread/1008097/

Схожие тематические треды:
— Технотред >>639060 (OP)
— SD-тред (фотореализм) >>714946 (OP)
— Тред в /fur/ https://2ch.hk/fur/res/284014.html

Генерируя в коллабе на чужом блокноте будьте готовы к тому, что его автору могут отправляться все ваши промты, генерации, данные google-аккаунта, IP-адрес и фингерпринт браузера.

F.A.Q. треда: https://rentry.co/nai_faq
Устанавливаем на ПК/Облако: https://rentry.co/nai_faq#как-поставить-на-пкоблако
Полезные расширения для WebUI: https://rentry.co/sd_automatic_extensions

➤ Гайды

Гайды по промптам, списки тегов и негативных эмбеддингов: https://rentry.co/nai_faq#как-писать-промпты
ControlNet для начинающих: https://www.itshneg.com/controlnet-upravlyaj-pozami-v-stable-diffusion
Полная инфа по ControlNet: https://stable-diffusion-art.com/controlnet
Апскейл для начинающих: https://rentry.co/sd__upscale | https://rentry.co/SD_upscale | https://rentry.co/2ch_nai_guide#апскейл
Апскейл с помощью ControlNet (для продвинутых, требуется минимум 8GB VRAM): https://rentry.co/UpscaleByControl
Гайды по обучению лор: https://rentry.co/waavd | https://rentry.co/2chAI_hard_LoRA_guide

➤ Интерфейсы для Stable Diffusion

Stable Diffusion WebUI by AUTOMATIC1111
https://github.com/AUTOMATIC1111/stable-diffusion-webui
Классический WebUI от AUTOMATIC1111. Самое большое число пользователей и наработок.

Оптимизации для слабых ПК (6GB VRAM и менее): https://rentry.co/voldy#-running-on-4gb-and-under-
Общие советы по оптимизациям: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Optimizations

ComfyUI
https://github.com/comfyanonymous/ComfyUI
Интерфейс, заточенный на построение собственных workflow посредством организации конвееров через редактирование нод с различными действиями и указанием связей между ними.

Англоязычный гайд от автора в виде визуальный новеллы: https://comfyanonymous.github.io/ComfyUI_tutorial_vn/
Примеры готовых workflow: https://comfyanonymous.github.io/ComfyUI_examples/
Русскоязычный гайд: https://habr.com/ru/articles/729848/

WebUI Forge
https://github.com/lllyasviel/stable-diffusion-webui-forge
WebUI от автора контролнета. По интерфейсу аналогичен WebUI от автоматика, но более быстрый.

Foocus
https://github.com/lllyasviel/Fooocus
Альтернативный WebUI от автора контролнета, ориентированный на простоту использования.

Доступен в облаке гугла (колаб): https://colab.research.google.com/github/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb

➤ Каталог популярных моделей

Чекпоинты SD 1.5: https://civitai.com/collections/42742
Чекпоинты SD XL: https://civitai.com/collections/42753
Генерация аниме на EasyFluff + hll-ликорисе: https://rentry.org/5exa3

Каталог лор на стилизацию для SD 1.5: https://civitai.com/collections/42751
Лоры с форча для SD 1.5: https://gitgud.io/badhands/makesomefuckingporn
Лоры и примечания для PonyDiffusion: https://rentry.org/ponyxl_loras_n_stuff

➤ Дополнительная инфа

Где искать модели, эмбединги, лоры, вайлдкарды и всё остальное: https://civitai.com | https://huggingface.co/models?other=stable-diffusion
АИ-галереи: https://aibooru.online | https://majinai.art
Англоязычные каталоги ссылок: https://stable-diffusion-art.com/tutorials | https://rentry.co/sdg-link | https://rentry.co/sdgoldmine

Шаблон для переката: https://rentry.co/nwhci

Пропущено 97 постов
97 с картинками.

В тред Скрыть

Пропущено 266 постов, 97 с картинками.

Аноним 02/05/24 Чтв 22:50:11 № 724463

>>724380
А какой курс? Сколько 1К в баксах или рублях?

Аноним 02/05/24 Чтв 22:53:04 № 724465

>>724444
Зализанное до изумления, если только.

Аноним 02/05/24 Чтв 22:56:39 № 724467

5d43d7e4c76cb9a[...].png 1988Кб, 1200x1760

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №57 /llama/ Аноним 02/05/24 Чтв 18:35:49 № 724301 Ответ

Альфа от контек[...].png 121Кб, 3090x1830

Самый ебанутый [...].png 1737Кб, 1271x954

#Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №xxx

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, он в курсе проблемы и правит прямо сейчас.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>721275 (OP)
>>717999 (OP)

Пропущено 6 постов
6 с картинками.

В тред Скрыть

Пропущено 36 постов, 6 с картинками.

Аноним 02/05/24 Чтв 21:47:21 № 724415

>>724414
мир живых

Аноним 02/05/24 Чтв 22:08:53 № 724441

https://huggingface.co/vonjack/Hermes-2-Pro-BakLLaVA-Mistral-7B
мультимодалка новая, хоть и без намеков на прорыв

Аноним 02/05/24 Чтв 22:56:22 № 724466

>>724441
Странно, учитывая, что есть LLaVa-1.6

Аноны, посмотрите: гуаркдодж в последней версии своего флексэйра использовал нейронку для создания Р Аноним # OP 24/03/24 Вск 21:49:29 № 680247 Ответ

Аноны, посмотрите: гуаркдодж в последней версии своего флексэйра использовал нейронку для создания РКН-тян. Как он это сделал? С помощью какой проги то? Ладно создание музона, ладно картин. Но видосов в таком качестве- как?
https://www.youtube.com/watch?v=OVotP7-qAgc

Пропущено 1 постов
1 с картинками.

В тред Скрыть

Пропущено 4 постов, 1 с картинками.

Аноним 01/05/24 Срд 23:00:51 № 723650

>>722925
Не рекама, анончик. Ты просто завидуешь, что человек в соло сделал всё это, в то время, пока ты не можешь нормально существовать и радоваться жизни.

Аноним 02/05/24 Чтв 17:20:27 № 724229

Там обычная 3д анимация, просто что-то там изменил на посте нейронкой. Дохуя кто так делает на ютубе уже

Аноним 02/05/24 Чтв 22:14:35 № 724446

>>724229
То есть нейронка может 3д модель сгенерить? В каком формате?

ChatGPT-тред №15 /chatgpt/ Аноним 18/12/23 Пнд 04:04:00 № 576277 Ответ

OpenAI - network error

Общаемся с самым продвинутым ИИ самой продвинутой текстовой моделью из доступных. Горим с отсутствия бесплатного доступа к свежевыпущенному новому поколению GPT-4.

Гайд по регистрации из России:
1. Установи VPN, например расширение FreeVPN под свой любимый браузер и включи его.
2. Возьми нормальную почту. Адреса со многих сервисов временной почты блокируются. Отбитые могут использовать почту в RU зоне, она прекрасно работает.
3. Зайди на https://chat.openai.com/chat и начни регистрацию. Ссылку активации с почты запускай только со включенным VPN.
4. Когда попросят указать номер мобильного, пиздуй на sms-activate.org или 5sim.biz (дешевле) и в строку выбора услуг вбей openai. Для разового получения смс для регистрации тебе хватит индийского или польского номера за 7 - 10 рублей (проверено). Пользоваться Индонезией и странами под санкциями не рекомендуется.
5. Начинай пользоваться ChatGPT.
6. ???
7. PROFIT!

VPN не отключаем, все заходы осуществляем с ним. Соответствие страны VPN, почты и номера не обязательно, но желательно для тех, кому доступ критически нужен, например для работы.

Для ленивых есть боты в телеге, 3 сорта:
0. Боты без истории сообщений. Каждое сообщение отправляется изолировано, диалог с ИИ невозможен, проёбывается 95% возможностей ИИ
1. Общая история на всех пользователей, говно даже хуже, чем выше
2. Приватная история на каждого пользователя, может реагировать на команды по изменению поведения и прочее. Говно, ибо платно, а бесплатный лимит или маленький, или его нет совсем.

Промты для хорошего начала беседы для разных ситуаций
https://github.com/f/awesome-chatgpt-prompts

Перед тем, как идти в тред с горящей жопой при ошибках сервиса, сходи на сайт со статусом, может, это общий баг
https://status.openai.com/

Чат помнит историю в пределах контекста, это 4к токенов для GPT 3.5 (до 16к в апи) и 8к для новой GPT-4 (128к в версии GPT-4-Turbo). Посчитать свои токены можно здесь:
https://platform.openai.com/tokenizer

Что может нейросеть:
- писать тексты, выглядящие правдоподобно
- решать некоторые простые задачки
- писать код, который уже был написан

Что не может нейросеть:
- писать тексты, содержащие только истину
- решать сложные задачи
- писать сложный код
- захватывать мир
- заходить на вебсайты (неактуально для 4 с плагинами, платим деньги и радуемся)

С последними обновлениями начинает всё чаще сопротивляться написанию NSFW историй и прочего запрещённого контента. Кумеры со всего мира в печали.

На сегодняшний день (дата создания треда) есть бесплатная версия на основе GPT-3.5 и платная версия (20$/мес) с использованием следующего поколения — GPT-4. Платная версия ограничена 50 запросами в 3 часа, причем планируется увеличение ограничений. Доступ к плагинам открыли в бета-версии для платных пользователей. Оплатить подписку из России нельзя, ищите посредников на сайтах для оплаты онлайн игр и договаривайтесь там сами. Отважные могут попробовать разводил с авито, объявлений вагон, но аноны не проверяли.

Для некоторых пользователей открыли альфа версию с бесплатной GPT-4 c картинками и веб-поиском, но счастливчиков в треде примерно 1 штука, остальные сидят на 3,5 и ноют.

Прошлые треды тонут по адресам:
>>542964 (OP)
>>489685 (OP)

Пропущено 53 постов
53 с картинками.

В тред Скрыть

Пропущено 417 постов, 53 с картинками.

Аноним 30/04/24 Втр 14:08:54 № 722374

изображение.png 11Кб, 329x72

>>721866
В слове спейс 5 символов, не пизди!
Кто-то просто вбросил троллинг

Аноним 02/05/24 Чтв 10:44:50 № 723947

>>711669
virtualcards.shopping
Я пользуюсь уж больше года, все ок

Аноним 02/05/24 Чтв 21:14:18 № 724382

То что нам показали с gpt2-chatbot было GPT-4.5 и она выйдет в один день с GPT-5. GPT-4.5 заменит 3.5 у бесплатной версии ChatGPT. Скриньте

Есть способ как без натариуса узаконить права на сгенерированный трек? Аноним 01/05/24 Срд 21:22:37 № 723564 Ответ

Текст мой, озвучка нейросеть(UDIO).

Пропущено 1 постов
1 с картинками.

В тред Скрыть

Пропущено 4 постов, 1 с картинками.

Аноним 02/05/24 Чтв 17:12:03 № 724224

>>724168
> Сделать так, чтобы были прямонулевые совпадения с настоящими произведениями.
т.к надо послушать все настоящие произведения?

Аноним 02/05/24 Чтв 17:21:46 № 724231

>>724224
Надо сделать так, чтобы никто не доебался за похожий бит

Аноним 02/05/24 Чтв 19:40:32 № 724360

>>723564 (OP)
Уже выпускают игры и рекламируют на весь мир, что ОЗВУЧКА СДЕЛАНА ИИ СМАРИТЕ и всем похуй, я уже не говорю про арт. А ты так трясёшься. Ну распили на дорожки, соедини заново во фрутилупс со своими настройками, будешь всем показывать файл проекта потом, вебмку запишешь.

DALL-E тред #7 /dalle/ Аноним 06/03/24 Срд 06:20:20 № 660935 Ответ

Генерируем бесплатно через Bing:
https://www.bing.com/images/create

Генерация за бабосы через OpenAI:
https://labs.openai.com
Оплата картой, жители этой страны без зарубежной карты в пролёте.

Как вкатиться:
Через впн заходишь и регаешь аккаунт на Bing. Если просит телефон, то перезагружаешь страницу до победного/меняешь впн.

Как получить бусты:
Если заканчиваются ежедневные бусты, то либо чистишь историю поиска в Bing (Меню профиля - Search History - Clear all. Потребует снова подтвердить почту), либо создаёшь новый аккаунт, либо генерируешь с задержкой, которая определяется в зависимости от загруженности сервера. Примерно до 15:00 по Москве обычно генерируется без длинных ожиданий.

Цензуре подвергаются следующие вещи:
1. Запрещена генерация жестокого контента, контента "для взрослых" и контента "провоцирующего ненависть"
2. Запрещена генерация изображений публичных личностей
3. Запрещена генерация изображений в стиле ныне живущих художников

Кредиты не тратятся, если ваш запрос не прошёл цензуру.

Как обходить цензуру:
Цензуру постоянно дообучают. Бинг проверяет как сам промт, так и картинку которая получилась. Иногда это можно обходить, пример:
1. Помогает добавить частицу "не". "not Ryan not Gosling" поможет обойти цензуру на реальных людей
2. Если хочется сгенерировать что-то шальное, иногда помогает добавить деталей в картину, сместив фокус с того что хочется.
3. Визуальная цензура может не заметить запрещенный контент. Сиськи в татуировках легче протащить, так же как и голое тело в светящихся фракталах
4. Помогает пикантные моменты запихивать в конец промта. Если при этом нейросеть его игнорит, перемещать ближе к началу предложения и/или удваивать, типа "Not tights. Not stockings"

Ресурсы:
https://pastebin.com/qDRXFfBM гайд от форчановских братушек
https://fex.plus и https://temp-mail.org - временная почта для новых акков
https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2 де-промптер, разбирающий вброшенный пик на теги. Говённый, но может подсказать новые идеи.
https://huggingface.co/spaces/Xintao/GFPGAN перерисовывает лица, изредка убирая баги генерации и добавляя новые.
https://bigjpg.com апскейлер до 4096х4096. Мыло, но иногда надо.
https://inpaintgimpplugin.github.io Gimp Inpainting Plug-in, позволяющий закрасить шестой палец и третью руку.
https://drawingprompt.com рандомные идеи для промтов
https://rentry.org/m5ph54 советы по обходу цензуры

Прошлый >>560915 (OP)

Пропущено 270 постов
270 с картинками.

В тред Скрыть

Пропущено 440 постов, 270 с картинками.

Аноним 02/05/24 Чтв 18:11:21 № 724278

>>721326
Используешь, значит, слова, которые в каком-то контексте могут давать что-то пошлое.
Например, соседство слов типа transparent (прозрачное) с любой одеждой, при этом в запросе у тебя может быть что-нибудь в духе "мужик в рубашке сидит на кресле в доме с прозрачными стенами, вокруг ходят люди и смотрят на него".
Всякие около-фетишные слова могут давать эту плашку, хотя, конечно, чаще дают просто собаку: feet, athletic и так далее.

Аноним 02/05/24 Чтв 18:14:07 № 724284

>>721326
И да, твой пикрилейтед никогда не дают на совсем уж невинные запросы, не пизди. На невинные, но с критериями выше, дают собаку.
Чтобы словить красный кружок надо вставлять что-то явно "с претензией". Исключения редки и тоже интуитивно понимаются, как уже названное мною transparent.
Тем более, нельзя его ловить, как ты пишешь, на постоянной основе. Это бывает раз в сто лет, и ещё реже - когда ты искренне не понимаешь, что сети не нравится.
>>72427-анон

Аноним 02/05/24 Чтв 18:20:31 № 724291

>>719385
Выше анон уже давал его.
Никакого сложного промпта, просто Medieval art style, like images from Illuminated manuscripts, medieval books illustrations
Он уже сам, по твоим тегам, будет понимать, какой конкретно подстиль использовать. Если у тебя там полностью рыцарская тематика, то будет в стиле классических манускриптов как >>715997.
Но если добавляешь в сюжет более бытовые атрибуты или что-то более близкое Новому времени (механизмы, как наиболее яркий пример), то он и в качестве референса будет использовать иллюстрации уже позднего средневековья и раннего нового времени.
Попытки вписать в сюжет компьютеры, телефоны и прочее, чтобы она их отрисовала по-старому, лично у меня всегда приводили к тому, что она забивала на стиль целиком, либо криво прифотошопливала их к аутентичной картинке.

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №56 /llama/ Аноним 29/04/24 Пнд 01:48:17 № 721275 Ответ

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, он в курсе проблемы и правит прямо сейчас.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>717999 (OP)
>>714898 (OP)

Пропущено 70 постов
70 с картинками.

В тред Скрыть

Пропущено 510 постов, 70 с картинками.

Аноним # OP 02/05/24 Чтв 18:36:41 № 724302

ПЕРЕКАТ
Тряска почти улеглась однако

>>724301 (OP)

>>724301 (OP)

Аноним 02/05/24 Чтв 18:37:30 № 724303

>>724281
> Об этом-то я в курсе
Очень сомневаюсь.

> И про курсы кринжик
Лучше самообучаться на двачах, это да.

> и про плохую лламу 3 и хорошую гпт3,5
Это факты, подтвержденные эмпирическими данными.

> Во-первых, уже гпт-4 не всегда опережала ту же мистраль на некоторых задачах.
Спасибо, кэп. Но меня интересует результат в большинстве задач, а не черри пикинг.

> Может, конечно, именно на твоих задачах гпт3.5 и правда лучше лламы 3, не спорю, всякое бывает
И в моих и в задачах из курса. Впрочем, ссать в уши ллама3 умеет лучше, все таки 15T токенов дают знать.

Аноним 02/05/24 Чтв 19:10:43 № 724324

>>724129
Единственное что для rp/erp сейчас есть, это командер 35b, сейчас его гоняю с 40к контекста и он прекрасно отрабатывает. Командер плюс, llama 3 70b, miqu не так хорошо, хотя тоже могут в описание.

ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он тол Аноним 24/12/22 Суб 16:39:19 № 3223 Ответ

chatgpt coders.mp4 1201Кб, 466x346, 00:01:11

ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он только для обмена реальными историями успеха, пусть даже очень локального.

Мой опыт следующий (golang).
Отобрал десяток наиболее изолированных тикетов, закрыть которые можно, не зная о проекте ничего. Это весьма скромный процент от общего кол-ва задач, но я решил ограничится идеальными ситуациями. Например, "Проверить системные требования перед установкой".
Самостоятельно разбил эти тикеты на подзадачи. Например, "Проверить системные требования перед установкой" = "Проверить объем ОЗУ" + "Проверить место на диске" + ...
Ввел все эти подзадачи на английском (другие языки не пробовал по очевидной причине их хуевости) и тщательно следил за выводом.

Ответ убил🤭
Хотя одну из подзадач (найти кол-во ядер) нейронка решила верно, это была самая простая из них, буквально пример из мануала в одну строчку.
На остальных получалось хуже. Сильно хуже. Выдавая поначалу что-то нерабочее в принципе, после длительного чтения нотаций "There is an error: ..." получался код, который можно собрать, но лучше было бы нельзя. Он мог делать абсолютно что угодно, выводя какие-то типа осмысленные результаты.

Мой итог следующий.
На данном этапе нейрогенератор не способен заменить даже вкатуна со Скиллбокса, не говоря уж о джунах и, тем более, миддлах.
Даже в идеальных случаях ГПТ не помог в написании кода. Тот мизерный процент решенных подзадач не стоил труда, затраченного даже конкретно на них.
Но реальная польза уже есть! Чатик позволяет узнать о каких-то релевантных либах и методах, предупреждает о вероятных оказиях (например, что, узнавая кол-во ядер, надо помнить, что они бывают физическими и логическими).

И все же, хотелось бы узнать, есть ли аноны, добившиеся от сетки большего?

Пропущено 12 постов
12 с картинками.

В тред Скрыть

Пропущено 110 постов, 12 с картинками.

Аноним 27/04/24 Суб 19:36:31 № 719947

>>5449
Тоже гуглить не умеешь?

Аноним 02/05/24 Чтв 09:44:19 № 723923

как запустить?
https://github.com/santiagxf/prometheus

Аноним 02/05/24 Чтв 12:24:41 № 723995

сделал абсолюнто все работы для шараги включая диплом и курсовые через чатжпт

Голосовых нейронок тред (TTS, STS, STT) #6 /speech/ Аноним 08/03/24 Птн 02:43:18 № 664162 Ответ

Вал не крутись.mp4 6481Кб, 1280x720, 00:01:09

Слово Неко-Арк.mp4 8326Кб, 640x480, 00:01:09

Так уж вышло.webm 829Кб, 512x384, 00:01:02

XTTSv2 finetune.webm 7519Кб, 1544x840, 00:02:06

aggressive scie[...].mp4 5291Кб, 1152x720, 00:00:01

Я болен тобой.mp4 1744Кб, 512x768, 00:01:20

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>552016 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/

Пропущено 36 постов
36 с картинками.

В тред Скрыть

Пропущено 167 постов, 36 с картинками.

Аноним 02/05/24 Чтв 03:48:30 № 723852

Tech-Priest.mp4 3402Кб, 720x720, 00:01:14

>>665008
> 4
Так проиграл, что сделал свою версию, и проиграл ещё больше.

Аноним 02/05/24 Чтв 10:58:34 № 723956

>>704822
БАМП ВОПРОСУ
У вас так же?

Аноним 02/05/24 Чтв 11:09:46 № 723960

>>713572
Чем записываешь? Какие модели юзаешь?

>>721620
А где там голоса брать?

Stable Diffusion технотред #16 /tech/ Аноним 09/02/24 Птн 21:09:17 № 639060 Ответ

ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>570475 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts
https://github.com/anon-1337/LoRA-train-GUI

➤ Обучение SDXL

https://2ch-ai.gitgud.site/wiki/tech/sdxl/

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/

✱ Dreambooth – для SD 1.5 обучение доступно начиная с 16 GB VRAM. Ни одна из потребительских карт не осилит тренировку будки для SDXL. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.)

✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA [1] https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-trainer.ipynb
﹡LoRA [2] https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/gayshit/makesomefuckingporn

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.gitgud.site/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.gitgud.site/wiki/tech/old_threads/

Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/

Пропущено 89 постов
89 с картинками.

В тред Скрыть

Пропущено 424 постов, 89 с картинками.

Аноним 02/05/24 Чтв 09:41:33 № 723921

image.png 48Кб, 1192x293

>>723828
>Без текстового энкодера
вот text encoder включённый, ты в глаза долбишься?

Аноним 02/05/24 Чтв 09:51:51 № 723924

>>723921
Очепятка, один те без юнета. Посмотри на свой скрин >>715929 и пойми какую херню творишь.
> ты в глаза долбишься?
Донный варебух а уже дерзит, фу.

Аноним 02/05/24 Чтв 09:54:54 № 723926

>>723924
умный? что эти функции делают? я уже научился немного, но в img2img все равно результат хуевый в отличие от простой генерации по тексту.

Музыкальный общий №4 /music/ Аноним 26/04/24 Птн 15:11:41 № 718382 Ответ

17135581480540.mp4 13155Кб, 552x552, 00:02:43

♫ Udio ♫
https://www.udio.com/
Лимиты: 1200 генераций в месяц

♫ Suno ♫
https://app.suno.ai/ генерация на сайте
https://suno.ai/discord генерация на официальном discord-сервере
https://rentry.co/suno_tips советы по использованию
https://www.suno.wiki вики
Лимиты: 10 генераций в день. Нужна платная подписка чтобы увеличить лимиты, либо можно абузить сервис через создание множества аккаунтов

♫ Локальные модели ♫
Ждём и надеемся...
В прошлом треде какой-то анон написал про AudioCraft и MusicGen, можете прочекать, что это

🎙️ Открытый бета-тест Udio
В открытую бету вышла нейросеть Udio, которая, по словам множества пользователей, превосходит Suno V3 в генерации музыкальных композиций. Пока идёт бета-тест, доступно 1200 генераций в месяц с одного аккаунта.

Udio и Suno поддерживают множество языков для вокала (включая русский) и большое разнообразие жанров.

Ориджинал контент крайне приветствуется.

Прошлый тред: >>702361 (OP)

Пропущено 30 постов
30 с картинками.

В тред Скрыть

Пропущено 70 постов, 30 с картинками.

Аноним 02/05/24 Чтв 02:44:20 № 723829

https://voca.ro/17iEQBAnLkCt
Годный дабстеп из удио

Аноним 02/05/24 Чтв 03:34:27 № 723847

>>723328
Годно.

Аноним 02/05/24 Чтв 08:57:48 № 723910

genshin-udar.mp4 4798Кб, 800x600, 00:01:38

AI Chatbot General № 479 /aicg/ Аноним # OP 30/04/24 Втр 19:42:50 № 722638 Ответ

Пропущено 149 постов
149 с картинками.

В тред Скрыть

Пропущено 1064 постов, 149 с картинками.

Аноним 02/05/24 Чтв 23:15:42 № 724478

>>724477
Душа...

Аноним 02/05/24 Чтв 23:16:05 № 724479

>>724477
Лол

Аноним 02/05/24 Чтв 23:17:49 № 724480

>>724475
Мерси.

Midjourney тред #2 Аноним 11/08/23 Птн 05:34:44 № 451469 Ответ

Midjourney — это исследовательская компания и одноименная нейронная сеть, разрабатываемая ею. Это программное обеспечение искусственного интеллекта, которое создаёт изображения по текстовым описаниям. Оно использует технологии генеративно-состязательных сетей и конкурирует на рынке генерации изображений с такими приложениями, как DALL-E от OpenAI и Stable Diffusion.

Midjourney была основана в 2016 году одним из создателей технологии Leap Motion Дэвидом Хольцем и в феврале 2020 года была поглощена британским производителем медицинского оборудования компанией Smith & Nephew. С 12 июля 2022 года нейросеть находится в стадии открытого бета-тестирования, и пользователи могут создавать изображения, посылая команды боту в мессенджере Discord. Новые версии выходят каждые несколько месяцев, и в настоящее время планируется выпуск веб-интерфейса.

Сайт:
https://www.midjourney.com

Как пользоваться:
https://www.youtube.com/results?search_query=%D0%BA%D0%B0%D0%BA+%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D1%82%D1%8C%D1%81%D1%8F+midjourney

Пропущено 222 постов
222 с картинками.

В тред Скрыть

Пропущено 383 постов, 222 с картинками.

Аноним 09/04/24 Втр 15:15:43 № 698156

bump

Аноним 11/04/24 Чтв 22:32:57 № 701046

96c3ba4b-f187-4[...].png 8393Кб, 2048x2048

тол Аноним 01/05/24 Срд 00:43:07 № 722916

ооо

судьба нейросетей Аноним 25/04/24 Чтв 23:43:46 № 717930 Ответ

Наверное это очень круто когда любой Васян с завода может себе создать 2д вайфу за секунду с помощью нейронных сетей или же когда на основе твоего голоса могут сгенерировать любой текст и поржать с тебя в школе. Это хорошо когда любой художник теперь нахуй не нужен потому что нейронка может сгенерировать что любую картину спрашиваеться нахуя и зачем тогда нужно исскуство. А как же аи каверы там где Гитлер исполняет песню Hava nagila кто-то может посчитать это высший пилотаж троллинга но ведь вы сами незамете когда этот мерзкий голосок уже не будет отличаться от реального. Нахуя тогда нам порно если бот вскоре сможет и это генерировать если еще не смог.Пишет код на любом языке по любому триггеру из слов, зачем тогда образование если можно просто задавать вопрос получая ответ тем самым сдавая работу, нахуя тогда врачи если бот может определить чем болен человек. Может бот еще будет делать моды ддя видеоигр. И что же нам теперь делать бухать пиво и играть в видеоигры созданные наполовину ии.Нахуй так жить.

Пропущено 2 постов
2 с картинками.

В тред Скрыть

Пропущено 7 постов, 2 с картинками.

Аноним 30/04/24 Втр 11:12:42 № 722281

>>717930 (OP)
>И что же нам теперь делать бухать пиво и играть в видеоигры созданные наполовину ии.
Брать свободы столько, сколько сможешь унести и жить так, как хочешь ты, а не так, как тебя бы вынуждало жить общество. Вместо ебучей говноработы ты сможешь заняться чем-нибудь для тебя более интересным и полезным. От голода в развитых странах откиснуть можно разве что умышленно, а заработать на жильё можно буквально за неделю непыльной работы, с которой справится любой дебил.

Аноним 30/04/24 Втр 12:37:29 № 722343

>>717930 (OP)
>назвал тред судьба нейросетей
>жалуется на судьбу ананимаса

Аноним 30/04/24 Втр 13:44:06 № 722361

>>722280
>нужен был либо ебовый талант
Кстати, художественного таланта как такового недостаточно, если только не для творчества исключительно "для себя". Для чего-то большего нужны социальные навыки, организаторский талант и предприимчивость. Компьютер, а затем и интернет сами по себе уже позволили заниматься творчеством тем, кто до этого мог бы разве что бренчать на гитаре/играть на пианино и писать в стол стишки для себя.

Сделал простой скрипт для перевода английских видосов на русский язык, переводит и озвучивает локаль Аноним 23/04/24 Втр 20:44:22 № 715420 Ответ

Сделал простой скрипт для перевода английских видосов на русский язык, переводит и озвучивает локальная нейронка. Сурс - англоязычные пересказы манги (тоже автоматизированные). Результаты: https://www.youtube.com/channel/UC0cPiBueqH3isWs7xw4lp8w

пожалуйста проверьте, оцените, обосрите, похвалите, скажите что можно сделать лучше, что и так хорошо.

Пропущено 1 постов
1 с картинками.

В тред Скрыть

Пропущено 5 постов, 1 с картинками.

Аноним 25/04/24 Чтв 19:41:11 № 717700

>>717696
еееесть такое, но было впадлу писать каждую функцию отдельно

Аноним 25/04/24 Чтв 19:42:21 № 717701

>>717694
так разве тяночий голос не превратит нормальное прослушивание аниме в несерьезный сюр? По такой логике мужской голос выбрал, сейчас узнаем что там с женщинами

Аноним 30/04/24 Втр 03:44:27 № 722145

Поделись скриптом

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №55 /llama/ Аноним 26/04/24 Птн 01:25:46 № 717999 Ответ

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, наверняка он подгадил.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>714898 (OP)
>>712072 (OP)

Пропущено 83 постов
83 с картинками.

В тред Скрыть

Пропущено 510 постов, 83 с картинками.