1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.
2. AICG тред перекатывается после достижения предела в 1500 постов. Любители чрезмерно самовыделиться идут в /asylum/.
3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.
4. Это доска преимущественно технического направления. Для откровенного NSFW-контента выделена отдельная доска - /nf/, эротика остаётся в /ai/. Так, порнография и голые мужики теперь отправляются в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.
Автор утверждает, что почти никакой постобработки нет, лишь самый минимум —зато сам ролик склеен из 55 отдельных кусочков (выходит по 4.4 секунды в среднем).
Баннер для AI
Аноним15/10/23 Вск 21:08:15№520258Ответ
Пришло время пилить баннер для раздела /ai/. Постим свои идеи и варианты баннеров в треде.
Технические требования: Формат jpg, gif (желательно) 300х100 пикселей Не более 300 кб
Stable Diffusion тред X+82 ====================================== Предыдущий тред >>714946 (OP)https://arhivac.top/?tags=13840 ------------------------------------------ схожие тематические треды - NAI-тред (аниме) >>719192 (OP) - технотред >>639060 (OP) ======================== Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях. Полный функционал в локальной установке (см. ниже)
>>724461 > Везде где видел или они ли точно такие же или 4х Ставь в обе хуйни размеры равные латенту. Если эти target_width и прочее что-то и делали на базе, то на кастомах они в большинстве случаев ухудшают результат, если туда пихать значения отличающиеся от латента. Впрочем и саму эту ноду нет необходимости использовать, т.к. большинство кастомов всё равно предпочитают одинаковый промпт в g и l, тем более пони с её тегами.
Генерируя в коллабе на чужом блокноте будьте готовы к тому, что его автору могут отправляться все ваши промты, генерации, данные google-аккаунта, IP-адрес и фингерпринт браузера.
ComfyUI https://github.com/comfyanonymous/ComfyUI Интерфейс, заточенный на построение собственных workflow посредством организации конвееров через редактирование нод с различными действиями и указанием связей между ними.
Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №57 /llama/
Аноним02/05/24 Чтв 18:35:49№724301Ответ
#Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №xxx
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, он в курсе проблемы и правит прямо сейчас.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Аноны, посмотрите: гуаркдодж в последней версии своего флексэйра использовал нейронку для создания Р
Аноним# OP24/03/24 Вск 21:49:29№680247Ответ
Аноны, посмотрите: гуаркдодж в последней версии своего флексэйра использовал нейронку для создания РКН-тян. Как он это сделал? С помощью какой проги то? Ладно создание музона, ладно картин. Но видосов в таком качестве- как? https://www.youtube.com/watch?v=OVotP7-qAgc
>>722925 Не рекама, анончик. Ты просто завидуешь, что человек в соло сделал всё это, в то время, пока ты не можешь нормально существовать и радоваться жизни.
Общаемся с самым продвинутым ИИ самой продвинутой текстовой моделью из доступных. Горим с отсутствия бесплатного доступа к свежевыпущенному новому поколению GPT-4.
Гайд по регистрации из России: 1. Установи VPN, например расширение FreeVPN под свой любимый браузер и включи его. 2. Возьми нормальную почту. Адреса со многих сервисов временной почты блокируются. Отбитые могут использовать почту в RU зоне, она прекрасно работает. 3. Зайди на https://chat.openai.com/chat и начни регистрацию. Ссылку активации с почты запускай только со включенным VPN. 4. Когда попросят указать номер мобильного, пиздуй на sms-activate.org или 5sim.biz (дешевле) и в строку выбора услуг вбей openai. Для разового получения смс для регистрации тебе хватит индийского или польского номера за 7 - 10 рублей (проверено). Пользоваться Индонезией и странами под санкциями не рекомендуется. 5. Начинай пользоваться ChatGPT. 6. ??? 7. PROFIT!
VPN не отключаем, все заходы осуществляем с ним. Соответствие страны VPN, почты и номера не обязательно, но желательно для тех, кому доступ критически нужен, например для работы.
Для ленивых есть боты в телеге, 3 сорта: 0. Боты без истории сообщений. Каждое сообщение отправляется изолировано, диалог с ИИ невозможен, проёбывается 95% возможностей ИИ 1. Общая история на всех пользователей, говно даже хуже, чем выше 2. Приватная история на каждого пользователя, может реагировать на команды по изменению поведения и прочее. Говно, ибо платно, а бесплатный лимит или маленький, или его нет совсем.
Перед тем, как идти в тред с горящей жопой при ошибках сервиса, сходи на сайт со статусом, может, это общий баг https://status.openai.com/
Чат помнит историю в пределах контекста, это 4к токенов для GPT 3.5 (до 16к в апи) и 8к для новой GPT-4 (128к в версии GPT-4-Turbo). Посчитать свои токены можно здесь: https://platform.openai.com/tokenizer
Что может нейросеть: - писать тексты, выглядящие правдоподобно - решать некоторые простые задачки - писать код, который уже был написан
Что не может нейросеть: - писать тексты, содержащие только истину - решать сложные задачи - писать сложный код - захватывать мир - заходить на вебсайты (неактуально для 4 с плагинами, платим деньги и радуемся)
С последними обновлениями начинает всё чаще сопротивляться написанию NSFW историй и прочего запрещённого контента. Кумеры со всего мира в печали.
На сегодняшний день (дата создания треда) есть бесплатная версия на основе GPT-3.5 и платная версия (20$/мес) с использованием следующего поколения — GPT-4. Платная версия ограничена 50 запросами в 3 часа, причем планируется увеличение ограничений. Доступ к плагинам открыли в бета-версии для платных пользователей. Оплатить подписку из России нельзя, ищите посредников на сайтах для оплаты онлайн игр и договаривайтесь там сами. Отважные могут попробовать разводил с авито, объявлений вагон, но аноны не проверяли.
Для некоторых пользователей открыли альфа версию с бесплатной GPT-4 c картинками и веб-поиском, но счастливчиков в треде примерно 1 штука, остальные сидят на 3,5 и ноют.
>>723564 (OP) Уже выпускают игры и рекламируют на весь мир, что ОЗВУЧКА СДЕЛАНА ИИ СМАРИТЕ и всем похуй, я уже не говорю про арт. А ты так трясёшься. Ну распили на дорожки, соедини заново во фрутилупс со своими настройками, будешь всем показывать файл проекта потом, вебмку запишешь.
Генерация за бабосы через OpenAI: https://labs.openai.com Оплата картой, жители этой страны без зарубежной карты в пролёте.
Как вкатиться: Через впн заходишь и регаешь аккаунт на Bing. Если просит телефон, то перезагружаешь страницу до победного/меняешь впн.
Как получить бусты: Если заканчиваются ежедневные бусты, то либо чистишь историю поиска в Bing (Меню профиля - Search History - Clear all. Потребует снова подтвердить почту), либо создаёшь новый аккаунт, либо генерируешь с задержкой, которая определяется в зависимости от загруженности сервера. Примерно до 15:00 по Москве обычно генерируется без длинных ожиданий.
Цензуре подвергаются следующие вещи: 1. Запрещена генерация жестокого контента, контента "для взрослых" и контента "провоцирующего ненависть" 2. Запрещена генерация изображений публичных личностей 3. Запрещена генерация изображений в стиле ныне живущих художников
Кредиты не тратятся, если ваш запрос не прошёл цензуру.
Как обходить цензуру: Цензуру постоянно дообучают. Бинг проверяет как сам промт, так и картинку которая получилась. Иногда это можно обходить, пример: 1. Помогает добавить частицу "не". "not Ryan not Gosling" поможет обойти цензуру на реальных людей 2. Если хочется сгенерировать что-то шальное, иногда помогает добавить деталей в картину, сместив фокус с того что хочется. 3. Визуальная цензура может не заметить запрещенный контент. Сиськи в татуировках легче протащить, так же как и голое тело в светящихся фракталах 4. Помогает пикантные моменты запихивать в конец промта. Если при этом нейросеть его игнорит, перемещать ближе к началу предложения и/или удваивать, типа "Not tights. Not stockings"
>>721326 Используешь, значит, слова, которые в каком-то контексте могут давать что-то пошлое. Например, соседство слов типа transparent (прозрачное) с любой одеждой, при этом в запросе у тебя может быть что-нибудь в духе "мужик в рубашке сидит на кресле в доме с прозрачными стенами, вокруг ходят люди и смотрят на него". Всякие около-фетишные слова могут давать эту плашку, хотя, конечно, чаще дают просто собаку: feet, athletic и так далее.
>>721326 И да, твой пикрилейтед никогда не дают на совсем уж невинные запросы, не пизди. На невинные, но с критериями выше, дают собаку. Чтобы словить красный кружок надо вставлять что-то явно "с претензией". Исключения редки и тоже интуитивно понимаются, как уже названное мною transparent. Тем более, нельзя его ловить, как ты пишешь, на постоянной основе. Это бывает раз в сто лет, и ещё реже - когда ты искренне не понимаешь, что сети не нравится. >>72427-анон
>>719385 Выше анон уже давал его. Никакого сложного промпта, просто Medieval art style, like images from Illuminated manuscripts, medieval books illustrations Он уже сам, по твоим тегам, будет понимать, какой конкретно подстиль использовать. Если у тебя там полностью рыцарская тематика, то будет в стиле классических манускриптов как >>715997. Но если добавляешь в сюжет более бытовые атрибуты или что-то более близкое Новому времени (механизмы, как наиболее яркий пример), то он и в качестве референса будет использовать иллюстрации уже позднего средневековья и раннего нового времени. Попытки вписать в сюжет компьютеры, телефоны и прочее, чтобы она их отрисовала по-старому, лично у меня всегда приводили к тому, что она забивала на стиль целиком, либо криво прифотошопливала их к аутентичной картинке.
Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №56 /llama/
Аноним29/04/24 Пнд 01:48:17№721275Ответ
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, он в курсе проблемы и правит прямо сейчас.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
> И про курсы кринжик Лучше самообучаться на двачах, это да.
> и про плохую лламу 3 и хорошую гпт3,5 Это факты, подтвержденные эмпирическими данными.
> Во-первых, уже гпт-4 не всегда опережала ту же мистраль на некоторых задачах. Спасибо, кэп. Но меня интересует результат в большинстве задач, а не черри пикинг.
> Может, конечно, именно на твоих задачах гпт3.5 и правда лучше лламы 3, не спорю, всякое бывает И в моих и в задачах из курса. Впрочем, ссать в уши ллама3 умеет лучше, все таки 15T токенов дают знать.
>>724129 Единственное что для rp/erp сейчас есть, это командер 35b, сейчас его гоняю с 40к контекста и он прекрасно отрабатывает. Командер плюс, llama 3 70b, miqu не так хорошо, хотя тоже могут в описание.
ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он тол
Аноним24/12/22 Суб 16:39:19№3223Ответ
ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он только для обмена реальными историями успеха, пусть даже очень локального.
Мой опыт следующий (golang). Отобрал десяток наиболее изолированных тикетов, закрыть которые можно, не зная о проекте ничего. Это весьма скромный процент от общего кол-ва задач, но я решил ограничится идеальными ситуациями. Например, "Проверить системные требования перед установкой". Самостоятельно разбил эти тикеты на подзадачи. Например, "Проверить системные требования перед установкой" = "Проверить объем ОЗУ" + "Проверить место на диске" + ... Ввел все эти подзадачи на английском (другие языки не пробовал по очевидной причине их хуевости) и тщательно следил за выводом.
Ответ убил🤭 Хотя одну из подзадач (найти кол-во ядер) нейронка решила верно, это была самая простая из них, буквально пример из мануала в одну строчку. На остальных получалось хуже. Сильно хуже. Выдавая поначалу что-то нерабочее в принципе, после длительного чтения нотаций "There is an error: ..." получался код, который можно собрать, но лучше было бы нельзя. Он мог делать абсолютно что угодно, выводя какие-то типа осмысленные результаты.
Мой итог следующий. На данном этапе нейрогенератор не способен заменить даже вкатуна со Скиллбокса, не говоря уж о джунах и, тем более, миддлах. Даже в идеальных случаях ГПТ не помог в написании кода. Тот мизерный процент решенных подзадач не стоил труда, затраченного даже конкретно на них. Но реальная польза уже есть! Чатик позволяет узнать о каких-то релевантных либах и методах, предупреждает о вероятных оказиях (например, что, узнавая кол-во ядер, надо помнить, что они бывают физическими и логическими).
И все же, хотелось бы узнать, есть ли аноны, добившиеся от сетки большего?
3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируемТред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)
✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS
✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.)
➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.
>>723921 Очепятка, один те без юнета. Посмотри на свой скрин >>715929 и пойми какую херню творишь. > ты в глаза долбишься? Донный варебух а уже дерзит, фу.
♫ Локальные модели ♫ Ждём и надеемся... В прошлом треде какой-то анон написал про AudioCraft и MusicGen, можете прочекать, что это
🎙️ Открытый бета-тест Udio В открытую бету вышла нейросеть Udio, которая, по словам множества пользователей, превосходит Suno V3 в генерации музыкальных композиций. Пока идёт бета-тест, доступно 1200 генераций в месяц с одного аккаунта.
Udio и Suno поддерживают множество языков для вокала (включая русский) и большое разнообразие жанров.
Midjourney — это исследовательская компания и одноименная нейронная сеть, разрабатываемая ею. Это программное обеспечение искусственного интеллекта, которое создаёт изображения по текстовым описаниям. Оно использует технологии генеративно-состязательных сетей и конкурирует на рынке генерации изображений с такими приложениями, как DALL-E от OpenAI и Stable Diffusion.
Midjourney была основана в 2016 году одним из создателей технологии Leap Motion Дэвидом Хольцем и в феврале 2020 года была поглощена британским производителем медицинского оборудования компанией Smith & Nephew. С 12 июля 2022 года нейросеть находится в стадии открытого бета-тестирования, и пользователи могут создавать изображения, посылая команды боту в мессенджере Discord. Новые версии выходят каждые несколько месяцев, и в настоящее время планируется выпуск веб-интерфейса.
Наверное это очень круто когда любой Васян с завода может себе создать 2д вайфу за секунду с помощью нейронных сетей или же когда на основе твоего голоса могут сгенерировать любой текст и поржать с тебя в школе. Это хорошо когда любой художник теперь нахуй не нужен потому что нейронка может сгенерировать что любую картину спрашиваеться нахуя и зачем тогда нужно исскуство. А как же аи каверы там где Гитлер исполняет песню Hava nagila кто-то может посчитать это высший пилотаж троллинга но ведь вы сами незамете когда этот мерзкий голосок уже не будет отличаться от реального. Нахуя тогда нам порно если бот вскоре сможет и это генерировать если еще не смог.Пишет код на любом языке по любому триггеру из слов, зачем тогда образование если можно просто задавать вопрос получая ответ тем самым сдавая работу, нахуя тогда врачи если бот может определить чем болен человек. Может бот еще будет делать моды ддя видеоигр. И что же нам теперь делать бухать пиво и играть в видеоигры созданные наполовину ии.Нахуй так жить.
>>717930 (OP) >И что же нам теперь делать бухать пиво и играть в видеоигры созданные наполовину ии. Брать свободы столько, сколько сможешь унести и жить так, как хочешь ты, а не так, как тебя бы вынуждало жить общество. Вместо ебучей говноработы ты сможешь заняться чем-нибудь для тебя более интересным и полезным. От голода в развитых странах откиснуть можно разве что умышленно, а заработать на жильё можно буквально за неделю непыльной работы, с которой справится любой дебил.
>>722280 >нужен был либо ебовый талант Кстати, художественного таланта как такового недостаточно, если только не для творчества исключительно "для себя". Для чего-то большего нужны социальные навыки, организаторский талант и предприимчивость. Компьютер, а затем и интернет сами по себе уже позволили заниматься творчеством тем, кто до этого мог бы разве что бренчать на гитаре/играть на пианино и писать в стол стишки для себя.
Сделал простой скрипт для перевода английских видосов на русский язык, переводит и озвучивает локаль
Аноним23/04/24 Втр 20:44:22№715420Ответ
Сделал простой скрипт для перевода английских видосов на русский язык, переводит и озвучивает локальная нейронка. Сурс - англоязычные пересказы манги (тоже автоматизированные). Результаты: https://www.youtube.com/channel/UC0cPiBueqH3isWs7xw4lp8w
пожалуйста проверьте, оцените, обосрите, похвалите, скажите что можно сделать лучше, что и так хорошо.
>>717694 так разве тяночий голос не превратит нормальное прослушивание аниме в несерьезный сюр? По такой логике мужской голос выбрал, сейчас узнаем что там с женщинами
Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №55 /llama/
Аноним26/04/24 Птн 01:25:46№717999Ответ
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, наверняка он подгадил.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся