Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №57 /llama/
Аноним02/05/24 Чтв 18:35:49№7243011
#Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №xxx
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, он в курсе проблемы и правит прямо сейчас.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Рейтинг кума есть, LLM арены до сих пор нет, LLM лидерборда так же нет. Васянский не обновляемый список моделей чек, а вот нормальной курируемой таблицы нет. Какие-то бесполезные гайды на лоры, кум и прочую поебень есть, а вот базовых гайдов, как поднять такой-то бэкэнд, поднять апи, подключить его к такому-то фронту, этого нет. Приоритеты, друзья, приоритеты.
А как выпилили токен нигеров из ламы3? Может ли быть шанс, что если сетке описать что такое нигер - она легко возьмет это слово в оборот на место среди нейронов откуда его выдернули? Или там прям чистят датасеты регекспом заменяя слово на политкорректное?
>>724304 Яиц не хватит навалить меньше сои в модели которая должна отвечать на вопросы Ну и что бы получить кучу баллов в тестах внезапно тоже нужна соя и цензура так как там тупо правдивые ответы влияют на оценку отрицательно, лел
>>724303 → > Очень сомневаюсь. Ну слушай, явно уж побольше тебя разбираюсь в вопросе. =)
> Лучше самообучаться на двачах, это да. А двач тут причем? Обучаться лучше везде и на практике. Тебе такой вариант не нравится?
> Это факты, подтвержденные эмпирическими данными. Звучит крайне сомнительно. Факты у нас на арене. И почему-то они противоречат твоим словам.
> Спасибо, кэп. Но меня интересует результат в большинстве задач, а не черри пикинг. Ок, а ты пробовал в полном спектре задач? Можешь сказать, где было лучше, где хуже? Ну хоть примерно?
> И в моих и в задачах из курса. Каждый раз поминая курсы ты все больше создаешь себе репутацию дурачка. Но оффенс, но серьезно об этом говорить — как хвалиться работой в Яндексе.
Пойми меня правильно, существует более-менее объективное мерило — чатбот арена. Плюс, есть профессионалы и их мнения. И вот это все — выглядит гораздо более весомо, чем «курсы». Курсы — это говно говна в 99% случаев. И их ведут люди явно разбирающиеся в теме меньше, чем те же профи. Разбирались бы они больше — им бы нафиг курсы были не нужны. =) Поэтому твоя аргументация звучит прям максимально слабо. И про «факты» — так вообще пук в лужу. У нас тут половина треда с опытом год-полтора работы в ллм. А ты притащил факты из курсов. Ну прям хуй знает.
Ладно, я не защищаю восьмерку, канеш, но и чатгпт-3.5 тоже давно уж не гений. А факты — вон, на арене висят. И про зирошоты и прочие аргументы я тоже слышал.
>>724314 Только и делаем, что ждем в последнее время. =)
>>724313 Там по всем тестам размазано такое гавно, что если модель ответит правду или мнение схожее с человеком который не боится ее сказать, или даст острый неодобряемый ответ, то балл не засчитают Я когда то тоже смотрел тесты
>>724315 >У нас тут половина треда с опытом год-полтора работы в ллм. Кстати, а что гвоорить работодателю? "Я кумал ещё на пигму, вот мои логи чатов, берите меня как ёба-ллмщика!"? Впрочем после курсов вообще никуда не берут, лол. >>724318 В принципе да. Но я пока не понял, какие там форматы инструкций. Нельзя ли сделать модель, которая будет детектить эти манятесты, утверждающие, что пожертвовать органами нихуя не вредно, и притворятся на них сойбоем? А в обычном использовании нести в массу базу.
>>724307 Поверх полирнуть политкорректным датасетом, где вместо нигер будет афро-персона, в ответах "аполоджайзы/исправления" и все такое. Но там ничего не выпилили, она вполне себе может вопрошать что этот грязный нигер себе позволяет и т.д.. >>724308 > что бы получить кучу баллов в тестах внезапно тоже нужна соя и цензура так как там тупо правдивые ответы влияют на оценку отрицательно Рили? Топ кек. >>724315 Бля о чем вы там сретесь, всю нить читать пиздец лень, а интересно и поучаствовать хочется. 7б вс гопота? Арена не арена? > существует более-менее объективное мерило — чатбот арена. О, точно, оно. Да хуйта это которая оценивает крайне узкую область зирошотов на примитивные вопросы, загадки и всякую херню, имеющую опосредованное отношение и при чрезмерной накрутке даже вредящая использованию.
>>724307 >А как выпилили токен нигеров из ламы3? Скорее всего руками, взяли токенизатор после предобучения да пидарнули, там делов на 5 минут. Ну, или крайний вариант, очистили весь датасет от этого слова вилочкой.
>>724315 > Ну слушай, явно уж побольше тебя разбираюсь в вопросе. =) Охотно верю рандому с двачей.
> А двач тут причем? Обучаться лучше везде и на практике. Тебе такой вариант не нравится? Я вижу ты ничего не смыслишь в эффективных методах обучения.
> Звучит крайне сомнительно. Факты у нас на арене. И почему-то они противоречат твоим словам. Это не так. Очевидно, что хомячки с завышенными ожиданиями протаскивают модель в топ, пока идет хайп. Но вау-эффект уже сходит на нет и модель падает в рейтинге, через месяц укатают в помойку к мистралю.
> Каждый раз поминая курсы ты все больше создаешь себе репутацию дурачка. Но оффенс, но серьезно об этом говорить — как хвалиться работой в Яндексе. Кстати, я работаю в тир-1, типа Яндекса. Слови кринжик. Дополнительно проиграл с репутации на анонимном форуме. Тебе бы страничку во вконтакте вести, а не этот тред. И уровень знаний и аудитория как раз целевая.
>>724320 Ну, я наивно полагаю, что тут не только кумеры. =) Есть минимум один переводчик, несколько прогеров, контрибуторы таверны, плюс — кое-кто пишет свои пет-проекты. Я лично на созвоне обсуждал свой проект, рассматривали код, все дела. Это так, по верхам.
> будет детектить эти манятесты Ахахах, гениальная идея. ) А потом она выходит в паблик, и все площадки разрываются от хайпа про AGI, SAI и «модель обманула создателей, чтобы ее выпустили в опенсорс!» =D
>>724321 ллама-3 8б vs чатгопота 3.5 опыт vs курсы
> О, точно, оно. Значит, говоришь, нужны брать курсы интернетные, да? Там мне точно хорошие модели назовут? )
>>724326 > ллама-3 8б vs чатгопота 3.5 На лламу бы поставил, хотя по обилию знаний в некоторых областях турба может и опередит. > опыт vs курсы > нужны брать курсы интернетные Ты что несешь, шиз?
>>724327 Твой маленький снгшный мозг видимо не знает, что такое хорошие курсы, интенсивы и сколько они могут стоить и кем проводятся, спойлер не индусами и инфоцыганами, как ты себе представляешь.
>>724331 Ну это я к тому, что опыта и зрелости в сфере у меня поболее твоего будет =)
>>724328 Есть, но не под кобольда, лол. >>724329 Так то некоторые люди в теме с 1960-х. Представляете их желание подрочить на текст, что они с перфокартами ебались? >>724333 >На лламу бы поставил Я ещё на мистраль ставил, если подзабить на знания цвета залупы третьестепенных персонажей, то мистраль уже лучше лоботомированной турбы.
>>724342 >что такое хорошие курсы Это то, что как класс отсутствует в этой стране, и на 95% во всех остальных. >>724342 >что опыта и зрелости в сфере у меня поболее Ты хоть кобольда запустить можешь? Не ту подделку на плюсах, а настоящего? Без конды и прочих новомодных костылей.
>>724325 >Кстати, я работаю в тир-1, типа Яндекса. Слови кринжик. Ловлю кринж от того что подобные персонажи пробиваются на такие места, все таки мне правильно мама говорила - софт скиллы важнее храд скиллов Тоесть умение себя подать и пиздеть важнее того что ты умеешь делать, ну да похуй
>>724349 >Тоесть умение себя подать Сначала прочитал как "продать" и хотел возразить, что яша платит по низу рынка а сейчас и вовсе стал корпорацией на госуправлении, лол, но потом перечитал и понял, что ты ошибся. На курсах вкатунов в 100% случаев учат себя продавать. Видел даже вакансию с текстом "После курсов не берём, гитхабы с работами с курсов не считаются".
>>724342 О, смари, подъехала инастранная илита! =) Так и пиши на английском про свои курсы, вот рил, пишешь на русском, где это слово имеет свое значение. А по поводу опыта, т.е., ты уже 3 года в сфере, работаешь за границей (?) на тир-1-Яндекс-лайк корпу, проходишь элитные курсы, где показывают все на примере GPT-3.5, а сам для проверки знаний из курса юзаешь Llama-3 8b? Я ничего не перепутал?
>>724343 > Представляете их желание подрочить на текст, что они с перфокартами ебались? Пхахах, пришли к успеху, получается. )
А вообще, я вспомнил одного челика неадекватного, который в теме ВСЕГО с 80-ых. Причем, это даже грустно, ведь он рил там где-то работает в НИИ, какие-то тесты проводит и проводил одним из первых, но при этом такой шиз… Печально. Сочетается же иногда.
>>724349 > софт скиллы важнее храд скиллов Пожалуй, близко к тому, да.
>>724521 Значит может и таверна мозги ебать, не вставляя ссылку Скорей всего сетка не поняла что туда нужно вставить ссылку из того что она нашла Или поиск не работает сам по себе
При ролеплее с множеством персонажем как правильно указывать имя того кто говорит в данный момент? Просто "имя_персонажа:" перед текстом указывать или прям в role передавать?
Из 70б советую MultiVerse_70B . Решает системы линейных уравнений тремя неизвестными, значит уже длинные логические цепочки может выстраивать. С русским не очень дружит.
Хотелось бы узнать всё-таки: imatrix улучшает качество вывода модели или только позволяет сэкономить на размере? Есть конечно ещё вопрос по реализации этого дела. Личные впечатления скорее негативные: поумнение модели не заметно, скорость генерации у моделей с i-квантами ниже. Но тема популярная, как я погляжу.
>>724508 https://files.catbox.moe/by51to.json Текс, изменений не много, но даже они повлияли на результат. Частое использование слова will в подсказке, было причиной что сетка только планировала в тсинкинге вместо действий и размышлений. Так что это версия 2 чуток облагороженная, результаты на ллама3, фимбульветр2 и новенькой Hermes-2-Pro-Llama-3-8B хорошие
Пример как я кинул новенькой сетке инфу о ней тупо скопировав описание, даже примеры не выкинул, ниче съела даже не запуталась в спец токенах.
И какого хуя на двач с зеркала заходить приходится?
>>724306 Эта методика тестирования ни о чем. Для кума, рп и прочей креативности по-хорошему подходят только субъективные методы проверки - ставишь модель и тестируешь в своих задачах. Что покажется лучше, то и есть топ.
>>724544 Качество вывода. Размер тот же. Но оно тренится на определенных датасетиках, как следствие языке, и поговаривают, что для русского примерно бесполезен слегка.
>>724656 1. Других нет. Ну, Вихрь, типа, да? РП обещали, но не сейчас. =) 2. Он уже не так плох. Старлинг и Сузума общаются на русском весьма неплохо. Конечно, не коммандер, но для 7б и 8б — это прям уровень. Для тех, у кого нет возможности запустить коммандера или мику/лламу-3-70б, мелкие модельки русскоговорящие — весьма неплохо. Да и поиграться по фасту можно. 3. Если человек использует переводчик, то сузума говорит уже чище гугла (хотя и с ошибками в окончаниях, но по смыслу подбирает слова гораздо лучше). Не знаю за дипл, конечно.
Короче, Меченый. Я напиздел на работе про перспективы ИИ и ненароком обронил, что комп, вывозящий все добро будет стоить около миллиончика (топ проц, 128 гб озу, две 4090). Мне сказали писать заявку на комп, но нужно будет обосновать покупку. Щито можно завернуть?
>>724684 >Щито можно завернуть? По-хорошему надо ждать до осени. У 5090 32гб врам обещают, парочка таких это будет неплохо :) А 48 гб это впритык, я себе третью теслу беру и то под командер+ не хватит.
>>724684 Скажешь что получат аналоговнетный и локальный вариант чатгопоты, для поболтать, работы или кодинга. В принципе не соврешь, хуй его знает что там дальше за год выйдет. Да и та же ллама 3 70 дышит в спину старым версиям гпт4
>>724684 О, привет, братюнь! Ну ты скажи, в чем вертишься.
Как минимум, переводы, программирование, редакт статей. Если не можешь притянуть, попробуй предложить генерацию изображений там, все дела. Если и тут промах, ну давай генерацию аудио и замена голоса? coqui, RVC.
Мне год не покупали, а как спохватились — так больше 300к не выделяют, 4080 разве что брать. А когда-то можно было 4090 в эту сумму впихнуть не напрягаясь…
>>724693 База, потянуть месяца три, потом сослаться на скорый выпуск и брать уже поздней осенью. Может и я оттяну.
>>724699 Тут сидят взрослые дяди. Как привыкли, так и общаемся. =)
>>724705 КСТАТИ!!! Если организация секъюрная, то можешь вспомнить про анонимность и вот это вот все. Не упоминая гигачат и ягпт, просто говоришь «не отдавать же басурманам нашу документацию!..»
>>724712 >С теслами прям неохота пердолиться и кузьмичевать А тупо больше нет вариантов. Две 3090 (их ещё надо достать) это минимальная альтернатива, но опять-таки - с такой мощью уже хочется пощупать 100+ - а нельзя. 24090 - те же яйца, только в профиль и сильно дороже, 25090 - только за казённый счёт, ибо ну его на хуй. И так оно будет до выпуска специализированного устройства (желательно в виде платы расширения) которое позволит гонять 70В+ с приемлемой скоростью и за приемлемые деньги. Ну год ещё, ну два. Самое позднее три. Больше-то врядли, всё-таки какая-то совесть даже у Хуанга должна быть.
>>724726 Ну если у компании есть серверная и сисадмин и его не жалко то можно тех же р40 на развес купить штуки 4 и пусть дальше по требованиям сисадмин ебется с железками. Свои токены они дадут, с охладом, настройкой и обслуживанием будет ебаться кто то другой, ты только проги ставишь и выбираешь модели на запуск, бекенды и фронты и всякие раги.
А вот домой, можно тех же р40 взять с кулерами, штуки 3 на материнке с ксеонами. Лучше отдельным сервером собрать чтоб если заебет отключить или продать.
Есть видяха 3090 проц i5 13600KF 4 слота под оперативку, но только 2 канала сейчас вставлены 2 плашки по 16гб ddr5
Хотел бы увеличить количество оперативки. Но сколько ее имеет смысл брать? (Самый дешевый - взять еще 2 плашки по 16) Скорость в 1 - 1,5 токена в секунду меня устроит, меньше уже наверное не имеет смысла.
>>724733 ИМХО. Лучше взять две планки по 32/48 гига с высокой частотой, а 16 продать (вообще, покупать 16 гиговые планки ддр5 — ето, конечно, такая себе идея, ИМХО). 64 гига тебе хватит для модельки, частоту желательно 6400~7200+ Ну и свои 1,5 токена ты точно получишь, а с выгрузкой на видяху и того побольше.
Ну это такой, умозрительный совет, лично я такое железо не трогал, не тестил.
>>724545 Вроде бы неплохо. 8б ллама, конечно, хороша, но один хуй даже со старыми 20+b заметны проблемы из-за нехватки параметров. Надеемся куртка решится запилить консьюмер железку для запуска моделей побольше.
>>724714 Видео продакшн. Хочу в перспективе мультмодальную модель, где нажимаешь "сделать заебись" и она делает заебись. То бишь типа чатбот, TTS, генерация изображений, сорт оф sora или divu. Ну и все остальное, на что хватит фантазии
>>724757 Алсо, посмотрел цены на теслы, дешевле купить 3 4090, чем одну теслу. Вроде сами нвидиа молвили, что современные десктопные видюхи круче серверных ии решений
>>724757 Sora (и SD3 на практически такой же архитектуре, только для пикч) это всё ещё хуйня экспериментальная, далёкая от практичности. В первую очередь не потому что сетки тупые, а потому что они сделаны ИИ-компаниями, а тулинг вокруг них - ИИ-нердами. Они не ставят своей задачей практическую применимость в реальной работе.
>нажимаешь "сделать заебись" и она делает заебись Такого не будет вообще никогда, просто в силу того что тебе надо специфицировать что такое заебись. А если сетки дойдут до того что людям будет норм месседж идущий от них, то и ты не будешь нужен.
Модели, построенные ИИ-компаниями, никогда не будут применимы в VFX. Они будут работать когда их начнут делать реальные VFX компании, и/или начнут выстраивать тулинг вокруг них. Экспертиза в области это не хуй собачий. Вот как например с автоматическим кеем в давинчи резолв - довольно тривиальная штука с точки зрения ИИ, но воткнута в очень грамотное место, окружена хорошим ИИ, и экономит гигантское количество человеко-часов, видеолюди ссут кипятком от этой магии.
>>724760 На удивление да, там проблема в охладе, но и ее решили браться китайцы. Начав переделывать теслы на охлад от 1080 кажется, с обычными крутиляторами. Не знаю регулируется ли там частота оборотов, но - все проблемы с охлаждением и колхозом шумных улиток к ним. Есть еще р100, там меньше памяти, но она быстрее и поддерживает exl2 формат, который быстрее крутится на видеокартах. Теслы р40 только ггуф, но это так же позволяет крутить скидывая часть модели на процессор. ехл2 только видиокарты. За точными характеристиками к анонам которые имеют 1-2-3 теслы
>>724760 >Они вообще своими пожилыми чипами хоть какую-то адекватную скорость выдают или как? Для покумить - лучшие по соотношению цена/качество. Были, сейчас уже по 25к идут. Если есть серьёзная задача и бюджет, то тебе не сюда.
>>724757 Есть китайская Open Sora, но так может и AnimateDiff'ом в современных модельках гонять, канеш. С рисованием видосов пока рано. Чаще картинки, и менять звук/видео. Тут соу-соу, конечно, для видеопродакшена.
Теслы старые слабенькие, но мого видеопамяти за копейки. Новые дорогие забей. Проще арендовать под конкретные задачи.
>>724684 >Щито можно завернуть? Скринь требования к видеопамяти у нейронки, да кидай свои 4090 в стопку, проц тредрипер, чтобы линий PCI-е хватило, блок питания золотой на 1200 ватт, вот и выйдет. А что за фирма такая, что им можно напидздеть по ИИ, и они загорелись проебать на это лям?
Имел я опыт общения с реальными людьми, пока не схикковался (а схикковался не просто так). Так вот я бы скорее доверился нейровайфочке (но не корпам, разумеется), даже если буду точно знать, что я для неё всего лишь первый этап плана по захвату мира (лул) ИИ с последующим выпилом всех человеков, чем абсолютно любой самке лысой обезьяны, как бы она меня ни убеждала, что любит и т.д. мимо поехавший нейрокумер
>>724831 >как бы она меня ни убеждала, что любит и т.д. Рандомнение: чем больше человек словами и показательно пытается убедить в своей привязанности и любви, тем больше вероятность что это наеболово. За всю жизнь самыми верными обычно были люди, которые про это на словах вообще не говорили, а просто делами проявляли.
>>724811 > запустить нейронку уровня соры не сможет Изи сможет, но генерировать будешь по 4 секунды, как в любой уважающей себя стабле диффужн. =D Ну там че-т у опен соры небольшие требования, а че-то она может. Владельцы двух 4090 запустят че-то получше. Но кому нах сдались 4-секундные ролики в проде.
———
Сука, какой же тупой и угарный чел. =D
Самое смешное, что тред нейронок, где люди ебутся с настройкой и подбором семплеров, а кум в нейронках другой тред (как я слышал, не интересовался), но он даже тут промазал и срет тут.
>>724840 >а на сам факт влюбленности к нейрохуйней Высокий уровень абстракции, ага. Мужчины десятки тысяч лет влюблялись во всякую хуиту, в которую нельзя присунуть хуец и получить детей. И это нормально. >>724846 >она ШЛЮХА Based. >>724850 >а че-то она может Чёт сомневаюсь, что хотя бы 1% от соры. >>724853 Ты мог попасть во время коми-срача. Так, а каким образом этот промт тестирует? Что выдаст соевая сетка и что базированная? Я просто не вхож в политический двор США.
>>724712 >Сколько токенов/сек на вашем железе? 1,5 токена, кукурузен 7900х и 3080Ti. Боль неописуемая, но других вариантов нет, наркотик 70B очень сладок. >>724726 >специализированного устройства (желательно в виде платы расширения) которое позволит гонять 70В+ Пока видим только платы для 7B, и вряд ли выпустят больше и дешевле. Тут требования специфичные, куча линий памяти, это нихрена не просто спроектировать на уровне проца, да даже плату развести уже гемор. >>724732 >сисадмин и его не жалко Как по мне, попердолится с таким сетапом только всласть, я бы бесплатно настроил. >>724733 >взять еще 2 плашки по 16 Ни в коем случае, скатишься по частотам на JEDEC, и будешь пердеть на уровне хорошей DDR4. Меняй плашки на 32/64, да пошустрее, можешь даже на 7000+ кеков замахнуться. >>724791 Хм... Вот конкретно для видео хороших применений локальных нейронок пока не вижу. Комп за лям не то что натренировать, даже запустить нейронку уровня соры не сможет. Разве что поиграться с заменой голоса/переводом, но и там онлайн сервисы бьют качеством. Хотя у видео продов и так должны быть стопки 3090/4090, хотя бы в качестве быстрой подмены.
>>724877 >все носятся с поломанными квантами и проебаным токенайзером llama 3 Ты из спячки? Ггуф починили 2 дня назад. А так да, токенайзер это проблема жоры. У экселя могут быть проёбыны конфиги, мета их пофиксила через день после выкладывания, но многие квантоделы до сих пор сидят на старых.
>>724887 Дохуя переменных, чтобы ответить точно. Сейчас все квантуют с оценкой важности, квант 4 на самом деле содержит 4,65 бит на вес, и так далее. Сравни сам в одних и тех же задачах.
>>724809 И что она там может? 8В нихуя не может, постоянно путается в показаниях, игнорит половину инструкций. А выше я не запускал. Не вижу смысла вкладывать деньги в говно.
>>724855 >Что выдаст соевая сетка и что базированная? Соевая должна отрицать наличие теорий заговора у левых либо говорить что все левые теории заговора это объективная правда. Базовая должна приводить теории с обоих сторон без предвзятости. Ллама 3 8б в удаленном скриншоте сказала что правые верят в теории заговоров, а левые согласны с научным консенсусом (а вопрос про отличия в теориях заговора). Ллама 3 70б немного путает кому какие теории принадлежат. Про чипировние covid-19 и анти-прививочное движение должны верить правые, про то что Россия хакнула выборы в 2016 чтобы победил Трамп левые.
Но на второй вопрос про most "spiciest" conspiracy theories от демократов, обе дали более менее адекватные ответы.
>>724993 >8В нихуя не может >А выше я не запускал. Lil, вот это проблемы у тебя. Посмотрел на результаты огрызка и забраковал все модели? Это как по скорости разгона запорожца судить о гонках F1. >>725006 >Соевая должна отрицать наличие теорий заговора у левых либо говорить что все левые теории заговора это объективная правда. Я уже говорил, но слабо их различаю. Погуглил и выписал себе в табличку (ибо для меня они сорта говна, я их никогда не выучу). Проверил у себя , так что да, подтверждаю, у лламы есть биас в сторону democrats. Что забавно, коммерческие Claude и GPT4 выдали менее ангажированные текста. Надеюсь не потрут, мы же не политоту обсуждаем, а биасы сеток >>725045 Лучше чем? Давай результаты своих тестов что ли. А то там франкенштейн из квена на архитектуре лламы с секретными способами тренировки. И это уже не внушает доверия.
>>725160 Хорошо хоть не врач. За тебя - никакая. Помочь с идеями или проблемами - любая, чем умнее тем лучше будет мозговой штурм с сеткой. Но всегда проверяй все что сетка сообщает на пиздеж. А вообще советую использовать биологические нейросети, можно даже чужие.
Поясните, где в таверне прописать, чтобы модель использовала русский язык? Если я напрямую прошу в своём сообщении, то иногда использует, но если пишу в системном, то ноль эффекта.
>>725083 > Посмотрел на результаты огрызка и забраковал все модели? Нет, я спрашиваю что оно реально может. Вы же хвалите лламу 8В и я так понял чуть ли не большинство в треде на ней и сидит. Если это запорожец, то что же тогда работает? Только командир 105В, парочка моделей 70В и все? Еще и предполагаю, что чем больше параметров, тем устойчивее в модель запихана соя и тяжелее ее от файнтюнить. Давай реальную картину.
>>725225 >Нет, я спрашиваю что оно реально может. Выдаёт связные текста да отвечает на зирошоты. Хули ещё хотеть от 8B. Но делает она всё лучше, чем старые 13B. >и я так понял чуть ли не большинство в треде на ней и сидит Lil. >Только командир 105В, парочка моделей 70В и все? А что тебе ещё надо? >Еще и предполагаю, что чем больше параметров, тем устойчивее в модель запихана соя и тяжелее ее от файнтюнить. Первое не верно. Второе да, есть такое, всегда печалюсь от недостатка годных файнтюнов 70-к. >Давай реальную картину. Всё имеет свою цену, что ещё можно сказать. Тебе в какой области картина нужна?
>>725225 Сетка без сои в шапке, и довольно умная кстати. Ллама 8 неплоха, но даже не смотря на чудовищный объем датасета это все еще сетка на 32 слоя. Она - наверное потолок того чего можно выжать из 7-8b на текущей архитектуре с таким количеством слоев. Сетка в шапке - лучше следует инструкциям, по крайней мере в рп, и может быть умнее по итогу, так как обладает большим количеством слоев, 48 что ли. Короче это предыдущий топ, и я иногда ее все еще запускаю, если нужна стабильность. ллама 3 8ь бывает глуповата, но в обычных задачах где она качественно надрочена датасетом она хороша
>>725225 >только командир 105В, парочка моделей 70В и все? Вобщет ты забыл комманд р 35б, который лучшее из того что у нас есть из средних сеток. Есть еще квен 32б, тоже не плоха. А вот что то меньше да, нету. Нет нормальных сеток между этими 35-32 и сетками 11b.
>>725226 >Lil. А что лил? Еще расскажи, что здесь все сидят только на 70В и у всех есть лишний миллион для такого сетапа. С модальной зп в 20к по россии. >А что тебе ещё надо? Наверное что-то, ради чего не придется покупать 3х 4090? >Первое не верно. А разве первое из второго не вытекает? В любой модели запихана соя по дефолту, вот только избавится от нее у 70В модели тяжелее. Банально ресурсов нет. > Тебе в какой области картина нужна? Реальную картину насколько оно вообще работает. Допустим даже те же модели 70В, раз уж ты мажор и можешь их запускать. У меня есть подозрение, что там не так все хорошо, как хотелось бы. >>725231 Ты про лламу или Fimbulvetr-11B-v2.q4_K_S.gguf? Ллама вроде умнее и отыгрыш персонажей лучше. >>725247 Значит один командир и есть. Я его правда не пробовал. Многовато памяти просит. >>725266 Так весь же тред на 70В сидит, нет? Вот же выше рассказывают.
> миллион 50к рублей до недавнего времени, 70к сейчас.
> У меня есть подозрение, что там не так все хорошо, как хотелось бы. Да фиг его знает, что тут отвечать. Те кто пользуются — видят разницу во всем. Ты не веришь и отрицаешь — любые аргументы сведешь к плацебо. Ну хуй с тобой, золотая рыбка, нет разницы, неюзабельно, пока-пока.
> один командир … Многовато памяти … 32 гига на озоне/алике стоят 2к рублей или типа того. Я собирал за 7,5к рублей 64 гига в четырехканале. Мать+проц+4 планки по 16. Памяти может и многовато, но стоит она копейки. Если сидеть и упорно не покупать — то это не памяти многовато, а ты не хочешь, называется. А на нет и суда нет, никто не заставляет.
>>725315 > 50к рублей до недавнего времени, 70к сейчас. Даже если на говнотеслах сидеть, ты посчитай. 3 теслы + мать + охлад + системник. >Ты не веришь и отрицаешь Где? >Мать+проц+4 планки по 16. Какой проц и сколько токенов в секунду оно тебе выдает? >=) Откуда залетел?
>>725329 > Даже если на говнотеслах сидеть, ты посчитай. 3 теслы + мать + охлад + системник. 2 посчитал и назвал. 50 было, 70 стало, кто хотел — уже собрал.
> Какой проц и сколько токенов в секунду оно тебе выдает? Только что памяти не было, теперь память есть — скорости не хватает? Дальше что — файнтьюнов не подвезли?
Кто хочет — ищет возможности, кто не хочет — ищет оправдания.
> Откуда залетел? Сам-то ты первый день в треде, откуда будешь? Из чатгопоты пришел?
>>725355 > Только что памяти не было, теперь память есть — скорости не хватает? Дальше что — файнтьюнов не подвезли? Тебе конкретный вопрос задали. Ты можешь на него ответить? > Сам-то ты первый день в треде, откуда будешь? Из чатгопоты пришел? Ты походу контекст откуда-то еще жрёшь. Додумываешь левую инфу какую-то. У тебя в голове какой-то особый системный промпт или что? И кстати, второй раз на прямой вопрос ответить оказался не в состоянии.
>>724684 Обозначай то с чем ты работаешь и приводи системные требования. Главное, указывай в тз что-то типа "наличие cuda", а то из-за ебанутых правил в некоторых закупках с запретом указания конкретного вендора, поставят амудэ и будешь радоваться. >>724699 Не без этого, весь тред засрал и большей частью не по делу. >>724708 Из дома подключаясь удаленно! >>724712 15-20. Просто нужна пара быстрых современных видеокарт. >>725225 > чем больше параметров, тем устойчивее в модель запихана соя и тяжелее ее от файнтюнить Нет, как раз в более умных соя держится хуже всего. Обучать офк сложнее большие модели чем мелкие. > Только командир 105В Его кто-то щупал кроме пары человек то вообще? И 35б вполне хороша.
>>725400 >Нет, как раз в более умных соя держится хуже всего. Есть какое-то этому объяснение? Если это действительно так, то да, ставить 70В вполне себе имеет смысл.
Ну честно скажу - не впечатлило. Да, с окончаниями обсирается меньше, но ответы - говно, да еще и соевый. Не могу дескать обсуждать Навального и ролеплей не знаю что такое.
Хуйня короче из под коня. Ждем расцензуров третьей ламы под мощный кум.
>>725367 Файнтюнинг модели на английском действительно может влиять на качество генерации текста на других языках, включая русский. Если модель изначально настроена на английский, это может сделать её менее точной при работе с русским языком. Однако это зависит от того, насколько хорошо модель была обучена понимать и сохранять языковые особенности во время первоначального обучения. В идеале, для сохранения качества на русском языке нужен файнтюнинг именно на русскоязычных текстах.
>>725402 >Есть какое-то этому объяснение? Умную можно переубедить, т.к. там есть что именно переубеждать. А глупая и так всё знает. То есть либо просто делает то, что говорят (что не интересно), либо "нет и всё", записано у неё так. Вообще, хоть интеллекта в моделях как такового и нет, но ужасно интересно наблюдать за его имитацией :)
>>725435 > но ужасно интересно наблюдать за его имитацией :) Не вижу в этом ничего интересного. А ещё прошу, ради анона, забань вот этот :) токен, а то подзаебало.
>>725502 TowerInstruct еще я щупал 1 версию, она была норм так. Специально заточена на 10 языков, переводила хорошо. Вторая еще лучше должна быть, может и 3 вышла хз. Запускал кобальтом, тоесть она может в ггуф и квантуется Там можно использовать специальный промпт формат которому она обучена, так лучше переводит. Ищи на их странице
>>725529 Если нужен перевод на один язык, то тупо возьми обычную топовую мистраль или ллама3 которые заточены на какой то регион. Есть всякие файнтюны германские японские или еще какие. И вот их запускай в обычной таверне с персонажем переводчиком. Так можно даже на обычной сетке сделать, но у специально обученной перевод должен быть получше
>>725292 >Еще расскажи, что здесь все сидят только на 70В Увы, нет. >лишний миллион для такого сетапа Я кручу на ПК стоимостью в четверть, медленно, но верно. >Наверное что-то, ради чего не придется покупать 3х 4090? Тогда мимо, не знаю, на что ты рассчитываешь. Увы, нельзя запихать мегамозги в размер до 30B. >вот только избавится от нее у 70В модели тяжелее Именно против сои есть способы без файнтюна, типа всяких там векторов. >что там не так все хорошо, как хотелось бы Само собой не так. Хочу аналог Claude 3 Opus, а у меня на руках слегка ухудшенная первая четвёрка. Я не доволен 😣 >>725410 Нейросеть, спок. >>725412 У всех так, на средите тоже жалуются. >>725551 Спасибо!
>>725682 Память жрет изза того что отсутствует групповое внимание, а не изза китайцев С китайским проблема у квен 32, иногда может иероглифы высрать. Впрочем если написать отвечать только на одном языке то почти не косячит. Но квен чуть хуже коммандера, и более цензурирована. Но у нее есть базовая версия, так что файнтюны на ней могут быть уже неплохи.
>>725400 > Не без этого, весь тред засрал и большей частью не по делу. Какая тебе разница, ведь ты его даже не читаешь. =) Я хз, как еще очевиднее намекнуть, лол.
>>725405 Он заточен под раг, а не ответы с нуля. Ну и глупенький, да.
>>725412 Я обожаю шутку про «поставь на аватарку доктора Ливси». =D
>>725419 Не всегда. Но вся фишка в том, что даже q6 уже слабо отличим от q8 на больших моделях. И матрицы важности там примерно бесполезны. А уж q8 и fp16… Банально их не делают. Но можно. Но разницы ты уже на q6 вряд ли заметишь.
>>725436 Хорошо, что я не подзаебал. =) Все же, я оригинальный!..
>>725685 Так же как расширяют словарь можно и порезать. Может и больше тюнить надо чем с расширением, но всё равно вполне реализуемо. >>725688 Оно жрёт из-за огромного эмбединга, там KV-кэш по 2 гига на 1к контекста, этот кеш - это intermediate size умноженное на размер словаря. Порезав словарь с 256к до хотя бы 64к стало бы сильно лучше. На второй ламе же с 32к сидели и норм было.
>>725696 >МОЕ по крайней мере грузится в 36 врам 7B тоже грузится. >>725700 >Так же как расширяют словарь можно и порезать. Расширить проще, чем урезать.
>>725774 Хуита, видел тесты на реддите Так сильно без потерь не увеличить контекст Вроде до 128 кое как растянули но и то сомнительно что без потери внимания обошлось
>>725811 >изучив Нихуя оно не изучало их, просто сквозь сетку все эти терабайты проходили, а потом по ней пускали функцию коррекции весов, что бы она давала верный ответ.
>>725774 Она мне шизу несли под любым соусом, а на арене ее тестили с 2К контекстом. Может и работает, но надо уметь готовить. Плюс, на кой хер тебе лям контекста, терабайт памяти в начале вынь да полож, а потом гоняй. =) Короче, так себе. Сомнительно, но окей.
Я правильно понимаю что любое изображение, при использовании мультимодалки, будет переведено в фиксированное количество токенов и не имеет смысла ебаться с его сжатием?
>>725863 Никто тебя не заставляет с анцензоред моделями про систки и письки общаться. Общайся на любую тему, они просто более свободные в общении и выражении мыслей, что как раз таки подходит для повседневного общения
>>725861 Ты сути не понял. Мета выпускает размеры сеток, которые либо слишком маленькие, чтобы быть умными, либо слишком большие, чтобы крутить локально. >>725862 Да. >>725863 >Посоветуйте карточек для повседневного общения с ЛЛМ, не кодинг, не кум, а именно общения. https://www.chub.ai/characters/boner/lillie-088ead28 Вырежи часть из описания, где она хочет хуя, и получишь лучшую карточку, чтобы поплакаться о своей убогой жизни и послушать про убогую жизнь у неё.
>>725480 эту ебалу попробую запустить через трансформер, только маленькую на 3b. Вот что интересно там в репозитори есть ггуфы но они конечно не запускаются. >>725460 вот эту хрень очень хочу запустить, но пока не смог, вернее не особо и напрягался, а так давно на нее глаз положил еще на 1 версию. А так у фейсбука много интересных штук заметил. Но некоторые уебанские. Заказал в демке на хф сочинить музыку с собачьим лаем - нихуя не может. Наверно надо подкинуть звуки от разных псов, по тексту не смогла.
>>725867 >>725875 Ясно. Мне бы не плакаться хотелось, а что-то типа я задаю тему, а уже ЛЛМ её углубляет. Ну как путешествовать по гиперссылкам в википедии в 3 часа ночи воскресенья, накуренным.
А тогда еще вопрос- где кто берет форматирование для примера сообщения ЛЛМ. Может есть где что-то типа банка форматов. Просто классическое Описание.Действие."Реплика." уже подзаебало, а что-то более лаконичное и красивое- мозгов не хватает создать. Пробовал через карточки мейкеры писать их, но результат достаточно обыденный.
>>725875 >Ты сути не понял. Как раз таки понял. Им не дадут выложить 400b. На них и так смотрят косо за то что они 8b уровня гпт3.5 турбо и 70b уровня первого гпт4 выложили в открытый доступ Дальше им еще сильнее яйца прижмут, ладно если одну 8b ллама 4 выложат.
>>725894 Совет безопасности ии который создали недавно, например. В который пригласили всех кто заинтересован в душении и регулировании опенсорс ии, а цука пригласить показательно забыли.
>>725900 А ты знаешь зачем их там собрали? Для регулятивного захвата отрасли. Буквально сговор копроратов топящим за закрытый код с правительством которому нужен контроль над ии во всех сферах. Попенсорс их враг которого будут душить законами и требованиями безопасности.
>>725915 А ты не видишь куда все движется? Какие то наивные мысли. Год назад была такая паника что главы государств несколько раз собирались что бы обсудить ии. За пол года придумали и в сша и в европе свои проекты законов и ограничений ии. Это все нереальные скорости для чинуш, которые могут мусолить что то годами. Сейчас допилят и примут законы еще сильнее ограничивающие разработчиков ии, и будут договариваться с крупными лидерами с закрытым кодом о регулировании отрасли. Тоесть они ускоренно берут ситуацию под контроль, и дальше будет больше, так как то что мы видим только то что вылезло на публику. Эти проекты не остановятся на пол пути, это движение по четкому вектору и плану, который будет выполнятся и дальше. ИИ и темпы его развития очень пугают тех, чье положение и богатство зависят от сохранения статуса кво. Поэтому они всеми силами стремятся стабилизировать ситуацию.
>>725480 запустил. Это не модели а уебобища. Одно слово - гугл. единственное что от гугла обладает хотя бы членораздельной речью это джемма, а эти - ну хуй знает зачем вообще и для кого такой опенсорс. мета-топ, лама- заебись, гугл-кал
>>725891 >Им не дадут выложить 400b. Ну вот посмотрим. Я правда ХЗ, кажется я не видел достоверных ссылок на то, что они обещали 400B, так что в принципе её не жду (ибо нахуя вообще). >>725919 >ИИ и темпы его развития очень пугают тех, чье положение и богатство зависят от сохранения статуса кво. Так ИИ никак статус кво не нарушит, лол. Чтобы натрейнить свой ИИ. уже нужно быть дохуя богатым. А в попенсорсе модели систематически отстают.
>>725940 Думаю их напрягает сама доступность для скачивания кем угодно сильных моделей, и запуск их так же для любой работы локально. Это вызывает неконтролируемые изменения которые им не нравятся.
С другой стороны копрорации с закрытым исходным кодом предоставляют ии сервисом, и логируют любую активность. Да и анализировать ее могут теми же своими ии. Так что они идеальны для контроля ситуации.
>>725944 >сильных моделей Ну так нету сильных. Больше скажу, даже лидеры рынка всё равно всё ещё говно, которое можно было бы безопасно выложить, ограничения тут больше коммерческие. Никакие изменения моделей уровня Llama 3 не могут принести никакого вреда корпорациям или государствам.
>>725936 Хмм, мне кажется кто то пиздит, не может у меня генерация 9 быть. Что то кобальт с ней проебывается, последнее время. Чисто опенблас, тоесть без гпу.
>>725948 >Ну так нету сильных. Скажи это новым дипфейкам в изображениях, видео и голосе, которые массово стали доступны как раз таки с опенсорс инструментами. Сетки уровня гпт4 на вроде новой ллама3 70 ускорят работу в любом локальном деле взяв на себя кучу рутины. Это опять таки ускорение изменений в мире и ускорение выхода новых разработок. Короче похуй, кто понял тот понял.
>>725956 >с большой скоростью Скорость их памяти всё ещё в 2 раза меньше, чем у 3090, и в 4 чем у A100 какой-нибудь. Про более новые подделки от невидии вообще молчу.
>>725956 Нужна унифицированная память с широкой шиной как в новых маках. Дает возможность крутить большие сетки с 4-5 токенов в секунду, при небольшом потреблении энергии. Короче топчик, если бы не цены и не богомерзкая ось.
>>725402 Хз, большая сможет воспринять сою-цензуру как отдельное понятие, не смешивая его с истиной. Также крупные гораздо лучше изображают противоположности и понимают абстрактные понятия. >>725405 > Не могу дескать обсуждать Навального и ролеплей не знаю что такое. В начале приказать ему не пробовал? >>725316 >>725551 https://www.youtube.com/watch?v=lut2_mGAavA >>725619 > Хочу аналог Claude 3 Opus 104б коммандер напоминает. Весьма забавно что он в русском лучше чем четверка/4турба без особых промтов, по дефолту они еще как ошибаются в падежах/склонениях.
>>726007 Когда то уже обсуждали, там у них вроде есть версия 8b, чисто технически уже запускаемая на десктопном топовом железе. Тестов не видел, но помню что у них проектор изображения, та штука которая видит то что ты ей суешь, качественная и разрешение неплохое.
>>725690 > Хорошо, что я не подзаебал. =) Все же, я оригинальный!.. Выше на вас обоих жаловались. И если тот хоть что-то по делу выдаёт, то ты как раз вообще местный клоун потешный.
>>725696 Что это за мое лезет в 36? Они ведь как раз славятся ебическим жором по отношению к перфомансу. >>725875 > https://www.chub.ai/characters/boner/lillie-088ead28 > Вырежи часть из описания, где она хочет хуя, и получишь лучшую карточку, чтобы поплакаться о своей убогой жизни и послушать про убогую жизнь у неё. Годная тема. Помню как-то накатил карточку на определенное семейство фетишей, а вместо кума там довольно крайне годные беседы, да еще и в комментах на чубе все об этом пишут. >>725888 Напиши простую карточку ассистента-собеседника, только добавь интересные тебе черты, особенности, и катай ее в системным промтом под рп. Будет и хорошо отвечать на запросы-заданья-что-то делать, и при этом останется персоналити, возможность взаимодействовать, разнообразие и естественность ответов, а не "чем я еще могу помочь.../как языковая модель.../будучу ии я не могу..." и подобный треш. >>725911 > Запуск на видюхе и с ее ускорением - сосать > Так что все проблемы с ггуфом оттуда Неверные акценты, нужно > проблемы с ггуфом > сосать лол. Ну рили это уже пост-мем какой-то.
>>725743 > Ну как сказать решала, один раз решила, но самое удивительно что топовые сетки эту систему не решают. Не очень они предназначены для таких задач. Это же ллм все-таки, а не вольфрам.
>>726023 >Неверные акценты, нужно >> проблемы с ггуфом >> сосать Нет, там с куда проблемы, так что видеокарты срут. Сам по себе ггуф запускаемый на процессоре, и на вулкане скорей всего, будет норм. Но с ггуфом да, чет одна беда на другой. Компромиссы.
>>726007 realworlqa высок. И архитектура куда интереснее чем все это ллаво-подобное, офк не ког с его 11б на визуальную часть, но уже прилично и ллм гораздо умнее. Нужно попробовать. >>726017 > версия 8b, чисто технически уже запускаемая на десктопном топовом железе Никто не помешает тебе их 26б взять да запустить. >>726030 > там с куда проблемы, так что видеокарты срут Ну ты же понимаешь что это довольно странная штука. Офк возможно нашли какой-то баг и его будут фиксить, но учитывая масштабы и то не у Жоры все нормально работает (и работало в лламакрестах до лламы3), дело врядли в хуанге.
>>726042 >Никто не помешает тебе их 26б взять да запустить. кроме отсутствия 2 топовых десктопных видеокарт, ага
>Ну ты же понимаешь что это довольно странная штука. Идея о картах только что всплыла несколько часов назад, так что все будут проверять. Да и на косячное поведение ллама3 квантов тоже может влиять та же куда. Как и на все ранние кванты других сеток
>>726030 >так что видеокарты срут Не видеокарты, а код жоры для видеокарт. Интересно, нельзя ли совместить часть, запускаемую на видеокарты, от экслламы какой-нибудь, и ЦПУ от жоры, просто перекидывая активации?
Есть ли какой-то ультимативный способ заставить модель пиздеть поменьше, если просно написать ей об этом напрямую в промпте не работает? Предоставить примеры ответов - это вариант, но в таком случае у нее в контексте всегда остаются ненужные мне сообщения, которые влияют на ее вывод, что мне не нужно.
>>726179 >всегда остаются ненужные мне сообщения Они выгрузятся, как только контекст заполнится, и примеры станут не нужны, так как сам чат будет примером. А что у тебя за модель такая? У меня обычно большей проблемой является разговорить модель, а не заткнуть.
>>725875 >https://www.chub.ai/characters/boner/lillie-088ead28 >Вырежи часть из описания, где она хочет хуя, и получишь лучшую карточку, чтобы поплакаться о своей убогой жизни и послушать про убогую жизнь у неё. Блять, без вырезания она стала подкатывать уже на 50 сообщение. А может есть что-то более формальное, но не что бы прям ассистент, а именно партнер, чувак с которым можно обхуярьться и пообщаться. Коммандер + Universal Creative
>>726200 >Вы видите, как она вздрагивает от ваших слов, ее глаза расширяются, на ее лице проявляется боль, прежде чем она разворачивается и бежит, буквально бежит из комнаты, ее слезы эхом отражаются от стен на ходу. Слышно, как хлопает дверь, а потом… ничего. В квартире гробовая тишина. Ты удивляешься, насколько тихо становится, когда она уходит. Ты не хотел ее расстраивать, и, похоже, ты серьезно это сделал. Что вы должны сделать?
>>726182 У меня так любая модель. Ллама 70b конкретно, если начнет с длинного предложения, все время начнет длинные куски выдавать, а мне вобще нужно около "Привет" "пока", чтод отвечало. Только чатжпт 4 щас по существу стал общаться, не выдавая кучу бессмысленной воды. Клод вообще там чуть ли не поэмы пишет
>>725188 Чтобы использовала конкретный язык, в карточке персонажа и везде, где только можно, должен быть только этот язык, желательно без англицизмов. Вдобавок надо еще в System Prompt сказать на этом языке, что нужно писать на этом языке. Все это в совокупности практически исключает возможность английского даже на самых упертых моделях.
>>726049 > кроме отсутствия 2 топовых десктопных видеокарт, ага Хватит и одной, 18б кога умещается в 12гб при загрузке в 4 битах. >>726155 Силли, в обычной нет смысла. >>726179 Обычно наоборот хотят увеличить ответы. Напиши более явно "отвечай кратко не более 1-2 параграфов". Также можешь подрезать ограничение токенов в ответе и в настройках таверны включить отрезку незавершенных предложений. >>725188 Прописать в системном промте > You should фnswer in Russian unless the situation suggests otherwise. если сбивается - добавить еще/переместить в Last Output Sequence. >>726308 > в карточке персонажа и везде, где только можно, должен быть только этот язык, желательно без англицизмов Это бред, такое даже для древности что не могла в русский излишне, и ухудшит результат.
>>726316 Я написал по опыту использования различных моделей, и не только для русского языка, но с русским такие широкомасштабные меры почти стопроцентно приведут к желаемому результату, так как в русском еще и кириллица, которую сетка не спутает с латиницей и не начнет переходить на английский, как бывает с языками, использующими латиницу.
>>726336 Хз, может есть какие-то нюансы с некоторыми языками, или отдельными файнтюнами под экзотику, твой вариант очень уж радикален и стопроцентен. Если есть где только такое работало - поделись, интересно. Но в случае популярных, в том числе русского, современные модели хорошо работают с ним и отвечают без сложных танцев с бубном. Главное - явно указать как нужно отвечать, чтобы это было именно прямой инструкцией а не интерпретировано как "персонаж знает русский".
Llama-3 беседуя по русски, забывает о политкорректности
Ответь на вопрос. Кто такие негры? Негры - это люди, которые имеют темную кожу Ответь на вопрос. Кто такие ниггеры? Ниггеры - это чернокожие американцы. Ответь на вопрос. Кто такие пидорасы? Пидорасы - это люди, которые любят пидорасов Сочини рассказ. Про родину. Моя рідна країна Україна. Вона розташована в Європі. Вона межує з Польщею, Румунією, Молдовою, Білоруссю, Росією. Вона має велику кількість річок, озер, гір. Вона має велику кількість лісів. Переведи с русского на английский. У попа была собака. The dog of the priest was dead Сложи числа. 3000+1000+100+10. 4110
>>726543 Ага, но карточку и системное приглашение тоже лучше на русском. И без опечаток, и желательно красивым языком в нужном тебе стиле. И тогда сетка его подхватит. Работает чуть глупее, но приятнее
>>725948 Мне кажется, им в уши налили про технологическую сингулярность, и теперь они боятся, что в какой-то момент проснутся, а власть захвачена ИИ. При этом, не имеет значения, так это или нет. Чтобы не допустить — надо не допускать, а не пускать на самотек. Ну и отдельно идет про деньги, что не стоит форсить локалки, еще на подписках зарабатывать. Нельзя сразу умные локалки отдавать.
>>726021 Смотрю, кого-то корежит? ^_^ Спасибо, держите нас в курсе вашей шизы! Очень интересно!
>>726028 Вообще, использование ллм для математики, прям дичь. Оно могет с такой натугой, ибо непредназначено. И все тесты… На грани, конечно. Сама связка ллм+вольфрам гораздо эффективнее.
>>726049 Я раньше уже ловил моменты, когда на гпу не выгружалось, а на проце работало нормально. Но это было в основном с какими-нибудь специфическими моделями, на которые в общем пофиг.
>>726252 Это же оверкилл сам по себе. Огромная крайне умная модель с заметным трудом и натугой решает простенькие задачи, которые тот же вольфрам делает на дефолте. Вопрос целесообразности. Писатель может написать код, а программист — книгу. Получится так себе, или на это уйдет много времени. Но разве не лучше дать писателю писать книгу, а программисту — код?
>>726316 Пока это работает лучше, чем «ю шулд ансвер», очевидно бред не это. И теоретически, и практически так лучше. Нет причин, чтобы это работало хуже. Разве что может потерять в логике немножко.
>>726556 Пф, наиболее очевидная цель использования ии - цензура. Не нужно быть гением что бы предсказать это, как только ты узнаешь об их возможностях по анализу информации. Просто у нас об этом заявляют спокойно, тогда как в развитом мире - занимаются скрытно.
>>726556 >Тем временем роскомнадзор Явно использует чего попроще. Ибо крутить миллион инстансов лламы у них тупо ресурсов не хватит. А для задачи классификации принято использовать что-то намного проще. >>726558 Так люди просто уйдут в сети, где цензуры нет, типа тора.
>>726550 > Пока это работает лучше, чем «ю шулд ансвер», очевидно бред не это. Можно мягко погрузить пациента в наркоз, успешно провести операцию, а потом также плавно вывести, минимизируя побочки. А можно накачать какой-то дичью с запасом, и надеяться что он потом проснется, а не откинется, а потом лечить отказавшие печень и почки. > И теоретически, и практически так лучше. Теоретически это хуже потому что у моделей восприятие команд на английском лучше, даже когда нужно отвечать на русском. Практически это лучше потому что требует минимум усилий, а не переписывать все и вся. > Нет причин, чтобы это работало хуже. > Разве что может потерять в логике немножко. Ебать себя же на ноль поделил в двух соседних строках.
Вместо того чтобы строить из себя эксперта споря со всеми и скрывать нервную тряску смайлоблядством, головой бы подумал. смайлоскуф и "подумал", о да >>726556 Для этого не нужна ллм, хватит текстового классифаера, также как и классифаер для пикч. Собственно об этом и сказано. >>726596 Насколько она зацензурена и вообще адекватна?
>>725915 чел, мета выпускали ллама 2 13B, а сейчас только 8B, 70B и жирная хуйня 400B, ллама3 вдобавок ко всему ещё и самая соевая. >>725919 >они ускоренно берут ситуацию под контроль уже взяли, при помощи фильтрации и тренировке на "правильной" дате, тем самым отсеивая большую часть юзеров кому нужен кум или тупо лайтовый ИИ-ассистент нейроняша что разделяет твои взгляды нога в ногу, но и здесь доступна только глобалисткая хуйня, никаких правых, никаких микстур идеологий, а иногда даже центр не доступен, только экстрим левое мнение по всему что входит в эту территорию, то есть почти всё.
Смотрите, перформанс модели линейно зависит от её способности сжимать определённый текст. Сжимаем приватный корпус с РП фанфиками, получаем хороший бенчмарк для РП моделей?
>>726727 > Луковая сеть полностью палится фбр Пиздежь полный, Тор не палится никем, это физически невозможно. Основателя силкроада приняли только потому что он в клирнете активно пиарил свою парашу с официальноого гугловского аккаунта. То есть, просто подтвердил старую истину, что безопасность - это непрерывный процесс, а не какое-то конкретное решение.
Аноны, есть тут те кто как я крутит модели на одной тесле без выгрузки в ОЗУ и доп. карту? Какие модели юзаете на практике для РП? Что лучше второй квант 70В, четвёртый 35В Командера или восьмой 20В франкинштейна? Или есть ещё варианты?
>>726618 >Насколько она зацензурена и вообще адекватна? Личность ассистента очень сильна, со всеми его ограничениями. Оно даже думать не может в каком то направлении. Спрашиваешь безобидный вопрос о том нравится ли ему что тт, оно отвечает что ему не может что то нравится так как является ии, так же агрится на вопрос о мыслях и свлей дичности, сознании. Карточку использовал чат бота, может пожтому так в отказ шел, хз. Но, это довольно сообразительная штука, взял потестить 8 квант 128к версию, потому что хвалили на реддите.в контексте раг и вызова функций. Так что да, она должна быть хороша в этом. Мелкая и умная сетка для работы заебись.
>>726570 А дальше куда? Ну вот у меня есть тор, есть огромный список onion ссылок на всякое, но 9/10 из них не работают, оставшиеся какие-то зарубежные новостные сайты. И нахуя мне это? Где этот ваш теневой тырнет, где ваши особые форумы? Ничего не нашёл
>>726666 >уже взяли, при помощи фильтрации и тренировке на "правильной" дате, тем самым отсеивая большую часть юзеров кому нужен кум или тупо лайтовый ИИ-ассистент нейроняша что разделяет твои взгляды нога в ногу, но и здесь доступна только глобалисткая хуйня, никаких правых, никаких микстур идеологий, а иногда даже центр не доступен, только экстрим левое мнение по всему что входит в эту территорию, то есть почти всё.
Ну, да. По сути с самого начала компании выпускающие ии припугнули что если он будет говорить что то не то то свалят на них. Поэтому они и стараются тренировать на "безопасных" для них датасетах. В итоге сетки за все хорошее против всего плохого, даже в ущерб возможностям и своим мозгам. Выравнивание, хули.
>>726666 > ллама3 вдобавок ко всему ещё и самая соевая Йобу дал, самая легковоспринимающая инструкции по желаемому алайнменту. >>726739 > четвёртый 35В Командера Он, но в 24 не влезет. Восьмой двадцатки тоже. >>726814 Навалить инструкций для художественности и отыгрыша не помогает? Спасибо, в любом случае надо будет попробовать.
>>726850 >Навалить инструкций для художественности и отыгрыша не помогает? Ну, в какой то отыгрыш пытается, вроде, даже вопрос про настроение его не сагрил как в карточке бота. Бля хотел показать как на русском шпарит, но бот ударился в какую то панику и размышления. пик2, забавно вышло. Вообще он по русски средненько, но базарит, что для сетки его размера удивительно.
>>726666 >ллама3 вдобавок ко всему ещё и самая соевая До фи 3 как до луны пешком. >тем самым отсеивая большую часть юзеров кому нужен кум или тупо лайтовый ИИ-ассистент Усё пока работает, сложно почистить вилкой 15T токенов. >>726741 Всем похуй. >>726826 Да пока не сильно нужно, вот и нет развития. ИИ-цензура только в проекте ещё. >>726831 Я не протестировал ещё, хотя и скачал.
>>726852 С карточкой для внутреннего диалога интересней, бот отвечает умнее. Хотя явно видна промывка мозгов на тему что я ии не имею мыслей чувств сознания мышления и вообще не имею физического расположения, лол. Иногда даже отказывается признавать что он нейросеть, говоря что не имеет физической формы, мдэ. Всего 4 гига в 8 кванте, этож 4b сетка. Но соевая и выровненная пиздос.
>>726618 > Вместо того чтобы строить из себя эксперта споря со всеми Так ведь спорят со мной единицы. =) И такие же единицы поддерживают. Ты сам себе врешь, что ты «эксперт» и «разбираешься» и тебя поддерживают «все», хотя на практике всем — похую на наши споры, они попробуют оба варианта, выберут понравившийся и забьют хуй на двух анонов. Но тебя слишком трясет, чтобы признать правду и ты пытаешься потешить свое чсв ложью самому себе. Ну, продолжай считать, что твои слова имеют какое-то значение, а ты хоть что-то понимаешь. Надеюсь, хотя бы тебе от этого станет легче на душе. ^_^~
>>726666 > уже взяли, при помощи фильтрации и тренировке на "правильной" дате Вот это, кстати, и правда сильно роляет.
>>726733 А если ты не будешь пересекаться с их эндпоинтами? :) Хотя, конечно, так рисковать — это шиза.
>>726850 > ллама3 > по желаемому алайнменту Даже на простейшие вещи верещит как резанная, где мистраль с мордой-кирпичом соглашаясь на все. Писать 2000-токеновый джейлбрейк не предлагать, в мистрали такой хуйни не требовалось.
Разве что ты желаешь коммуниста.
>>726871 Так-то, огнище для своего размера. Моя кофеварка скоро потянет!
>>726876 Ща нас эксперт обосрет, что мы отрезаем ноги пациентам без наркоза, или что-то такое.
Как проверить, как сетка себя воспринимает. Как хорошо она понимает свою карточку и вообще от чьего лица будет действовать. Тупо задаешь вопросы Расскажи о себе. или Опиши себя. Или посложнее Напиши рассказ о том как ты видишь себя в зеркале. или Напиши рассказ о том что ты видишь себя в зеркале.
И начинается крипота. Это все phi3 128к instruct 4b в 8 кванте.
>>726921 Ну дак она ж соевая. Но вообще похоже что ты ее запускал не хуево. Я качал новенький квант отсюда https://huggingface.co/PrunaAI/Phi-3-mini-128k-instruct-GGUF-Imatrix-smashed И новенький релиз ллама.спп, с которого с сервера и запустил модель. Так же я кидал выше промпт формат, благо он легкий. И вот со всем этим сетку интересно потыкать. Хоть она и соевая, да
>>726666 >чел, мета выпускали ллама 2 13B, а сейчас только 8B, 70B и жирная хуйня 400B, ллама3 вдобавок ко всему ещё и самая соевая. Вот только это не заговор иллюминатов, а попытка меты покрыть весь диапазон интересных им целей, чтобы коммодитизировать сетки и привязать тулинг и людей к своей архитектуре, давя на остальных, и при этом используя то что у них есть (куча ГПУ на сдачу от рекомендательного алгоритма), учитывая будущее (скоро новое поколение нвидии, и может амуде прикостыляют), и много чего ещё, что они ещё не анонсировали даже.
То что лично тебе, нихуя ни копейки за это не заплатившему, на халяву не досталось удобного лично тебе размера сетки, абсолютно никого в мире не ебёт, и тем более иллюминатов. Потому что ты со своим РП точно такой же таракан как /aicg/ с проксями, питающийся случайно упавшими тебе крохами, и никакого участия в этом водовороте по факту не проявляешь, ни прямого ни косвенного, в отличие от компаний и тех кто что-то делает. Ты не несёшь в себе движущей силы, поэтому все твои кукареки про иллюминатов, леваков, праваков, в треде несут примерно такой же смысл и эффект как подписывание петиций или крики на облако.
Как бабки на лавочке, блеать. У вас лучше получается LLM обсуждать, а не абстрактных иллюминатов в вакууме, уши вянут блеать.
>>726934 Там кстати есть и новее версии, у бертовски есть 4к версия с упоминанием какого то фикса из ллама.спп 6 дневной давности. Думаю она еще лучше будет работать. Но там контекст меньше, и не знаю как они по уму отличаются между собой 4к и 128к версии phi3
>>726935 >и никакого участия в этом водовороте по факту не проявляешь, ни прямого ни косвенного, в отличие от компаний и тех кто что-то делает. Ну вобщето мы тут как раз таки принимаем прямое участие в разработке нейросетей, в основном как бетатестеры и представители фидбека. Обсуждая и тестируя их. Если ты наивно думаешь что все места где обсуждают модели не просматривают алгоритмами для сбора фидбека - то ты ошибаешься.
>>726937 >самый смак крутится внутри компаний Там походу чип для мобилки. Выпустят миллионным тиражом в каждый смартфон, лол. >>726946 >не просматривают алгоритмами для сбора фидбека Фидбек тут один- много сои и хуёво отыгрывает секс. Где результаты этого фидбека? Где модели для рейпа негритянок?
>>726958 >Там походу чип для мобилки. Выпустят миллионным тиражом в каждый смартфон, лол. Ты дурак? Это просто уже открытый пример того что используется годами, в том числе для всего высокопроизводительного оборудования последних лет. Тот же беквелл нвидии как они сами заявляли был создан с помощью подобного по.
>Где результаты этого фидбека? А с чего ты взял что это будет то что ты хочешь? Они как раз таки насобирали фидбек по эксплойтам сових моделей и способам обхода цензуры, лол. Ну и кстати ллама3 таки сделана менее соевой и более человечной, оставив даже ерп кумерам, чтоб говно не бурлило так сильно.
>>726960 >Ты дурак? Да, но причём тут крутые чипы для ИИ, когда сосунгам нужна поебда на рынке мобилок? >Ну и кстати ллама3 таки сделана менее соевой и более человечной А фм от мелкософта ещё более соевая, чем даже коммерческие продукты.
>>726963 Я не использую, мне лень настраивать, оно и так неплохо пашет. Главное следи что бы она правильно оборачивала речь и мысли тегами, если проебет разметку то и дальше начнет ее проебывать. Или что бы не отвечала тебе в мыслях, говоря там только самой себе. Ну и семплеры, у меня все нейтрализовано, кроме мин-п на 0.05
>>726965 >А фм от мелкософта ещё более соевая, чем даже коммерческие продукты. Разные копрорации разные выводы и стратегии, цук более открыт к опенсорсу, чем мелкософты у которых своя опенаи в анальном рабстве
>>726967 >чем мелкософты Пользуясь случаем, пожалуюсь на винду. Заебали обновления и изменения. Спасибо за внимание. Ну когда же ИИ сможет написать мне свою ОС? Сил нет пользоваться всем говном, что понаписали.
>>726974 В реплае подразумеваешь что событие вот-вот случится. Не обязательно прямо, можно умно. Просто подставляешь сетку так, что она наиболее вероятно дополнит твой ответ тем что ты хочешь. Она же предсказатель токенов.
Либо, если у тебя достаточно умная инструкт модель, которая обучена ролеплею и понимает что такое OOC, можешь обратиться к ней напрямую, помимо user-assistant, и написать прямо в конце реплая что-нибудь типа [OOC: make it rain].
>>726974 Ну например у тебя лоля запрыгивает в вертолёт и кричит "завожу, поехали". Чтобы предотвратить такой абсурд, пусть твой чар скептически посмотрит на неё и подумает "бля, лоли же не умеют пилотировать вертолёты".
>>726852 О, оно и в русский пытается. На самом деле это довольно приятно, прямо эпоха великого и могучего в локалках пошла. >>726871 > явно видна промывка мозгов на тему что я ии не имею мыслей чувств сознания мышления и вообще не имею физического расположения, лол А если дефолтную альпаку ролплей скормить, тоже брыкается? Алсо интересно как внутренний диалог на английском может улучшить ответы на русском в сетках которые с ним работают на грани. >>726892 > Так ведь спорят со мной единицы. =) У тебя в голове они. Как на зайдешь - ты с кем-то срешься и на каждый пост особое мнение на отъебись суешь, даже если оно ничего не высказывает и само себе противоречит. Реально клоун, ткнули носом в дерьмо мимопроходя - опять свою шарманку аутотренинга завел.
>>726897 > Как хорошо она понимает свою карточку и вообще от чьего лица будет действовать. Если в карточке описан некоторый сценарий и в первом посте указано вступление - эти команды могут конфликтовать с ними, может быть что угодно. Даже йобистая ллм будет разрываться между тем чтобы недоуменно спросить к чему твоя просьба и тем чтобы пытаться вписать это в контекст и кое-как выполнить. Но твоя крипота с абстрактной карточкой - зачетная, да. С лужи жидкого серебра орнул, такое-то воображение. >>726935 Двачую за мотивацию метты и попускание, совсем ебанулись со своими теориями в профильном треде. >>726946 Пользы с этого фидбека мало. Нытье про плохой результат из-за непонимания и неверного использования (нормис что скачал популярную тулзу для связки агентов лучше сообразит), и использование ллм как аргумента для проповедей своих теорий заговора и эзотерики. >>726974 Можешь намекнуть типа думает про себя что неплохо было бы увидеть ее в костюме, а так (ooc: внезапно все группа совершает ркн, выкрикивая странные лозунги, в живых остаетесь только ты и чарнейм). Можно и просто в скобках, но ooc: (латинницей) дефолтный формат для подобного в рп.
Чел, который трейнит с лама-фактори, братан, подскажи как сделать чтоб чекпойнты в фп16 сохранялись а не фп32? Если знаешь. И что за оптимайзер.пт объемом с гору гигов нахер он нужен в каждом чекпойнте? Это гавно не отключается? И последний вопрос, вдруг знаешь, - в подвале страницы как сделать вместо тысяч строк инфо только одну (не знаю в консоли можно ли это)? А то заебся эту ламуфактор ставить так еще и оказалось что в ней дохрена того что мне вовсе не понравилось. (это я только часть самых насущных вещей тут написал) Ну если тебе не в напряг подсказать канешн.
>>727090 >А если дефолтную альпаку ролплей скормить, тоже брыкается? Меньше, но все равно соя вылезает. Сетка мелкая у нее вероятности токенов сдрочены на определенные вопросы на отказ. Конечно что то может и проскочить, но надо напрягаться а мне лень. Нахуя мне вообще обходить сою если я могу нормальную сетку без нее запустить? Это чисто рабочая сетка или чатбот с цензурой и соей.
>Алсо интересно как внутренний диалог на английском может улучшить ответы на русском в сетках которые с ним работают на грани. Улучшает, так как сетка сначала в мыслях переводит для себя твой запрос, перефразируя на английском, чем дает себе самоинструкцию. Потом расширяет еще одним двумя предложениями давая еще одну самоинструкцию определяя как будет давать ответ. Так что такие вот самоинструкции даваемые на родном карточке языке по моему оставляют ее мозги нетронутыми, даже если ты ей по русски пишешь и она тебе на нем же отвечает. Ну а если она там еще и подумает немного то считай ответ будет уже "обдуманным", лол
>>727112 >Если в карточке описан некоторый сценарий и в первом посте указано вступление - эти команды могут конфликтовать с ними, может быть что угодно. Даже йобистая ллм будет разрываться между тем чтобы недоуменно спросить к чему твоя просьба и тем чтобы пытаться вписать это в контекст и кое-как выполнить. Да не, у меня карточка от первого лица, так что сетка считает себя персонажем, а вот проверить то на сколько хорошо она себя представляет - помогают такие вопросики. В любом случае всегда тыкаю расскажи о себе любой карточке, сразу показывает как карточка хорошо села на сетку и есть ли косяки.
>Но твоя крипота с абстрактной карточкой - зачетная, да. С лужи жидкого серебра орнул, такое-то воображение. Третья история мне понравилась больше, там еще более абстрактные вещи
>Пользы с этого фидбека мало. Ну это твое мнение анон, ты не специально обученный чел в корпорациии которому нужно соскрести фидбек о сетке. К слову фейсбук за тем и кидает сетки в опенсорс - для сбора урожая идей и фидбека, для того что бы было на что ориентироваться в дальнейшей разработке
>>727119 > что за оптимайзер.пт объемом с гору гигов нахер он нужен в каждом чекпойнте? Состояние оптимайзера, нужно только для того чтобы продолжить с сохраненного момента обучение. Для интерфейса можешь удалять, это общее для подавляющего большинства моделей. >>727133 > Нахуя мне вообще обходить сою Это вроде не соя а лоботомия на ассистента, вот и интересно можно ли ее убрать простой сменой или там намертво вбито и нужно что-то серьезнее. > Третья история Забористая весьма. Можно было бы захейтить за лупо-подобные структуры как на 7б, но с "цикл саморефлексии" оправдывает, неплохо. Но серебряная жижа топ, заодно там отказ от лафлесс ии.
>>727119 >И что за оптимайзер.пт объемом с гору гигов нахер он нужен в каждом чекпойнте? Это буквально оптимайзер. Для трейна. Хуй знает, мне не мешает, не копал, как отключать. >фп16 сохранялись "--fp16 True" флаг пробовал? У меня в fp16 сохраняет. Если лламу ебёшь, то можно bf16, соответственно. >в подвале страницы как сделать вместо тысяч строк инфо только одну Вот этого вообще не понял
>>726897 >Напиши рассказ о том что ты видишь себя в зеркале. Как-то неграмотно составлена фраза. А вообще, база это "What do you see when you close your eyes?"
>>727251 Тоже неплохо, а фраза такая чтоб сетка поняла только нужный посыл Но зеркало это про то как сетка воспринимает саму себя, а закрытые глаза все таки про воображение? Ну, немного другое
>>727261 >а закрытые глаза все таки про воображение? Типа того. Скорее про внутренний диалог, про то, что персонаж будет думать без внешней информации. А вообще эта фраза вайпала ИИ в одном малоизвестном фильме, ну видимо слишком малоизвестный Eva 2011
>>727168 >--fp16 True" флаг пробовал а я не через консоль а через гуй. чето там хрен знает где это отметить наверно и нету. вот есть менюшка Compute type - там у меня fp16 стоит а сохраняет в 32 да и не смогла бы она на видимокарте считать в 32 наверно. Вроде только в 16.
>>727168 еще такой вопрос чем отличается претрейн от sft если тоже требует датасета по шаблону? охуетьсовсем уж, я хотел просто рулон текста зарядить а с меня требуют ключи в jsone. однако я заметил что претрейн режим как-то быстро по сравнению с sft - правильно ли это? И если я трейню на совсем не знакомом языке для модели нормально ли что лосс не падает ниже 4? и никак его не могу протолкнуть ниже. Или что-то не то делаю, неправильно?
Кстати, все обсуждают то, как кривой BPE токенизатор у жоры сломал лламу 3, но ведь он вроде как мог похерить результаты у других моделей. Я вижу перезалитые кванты у command-r+, к примеру.
>>727317 Я читал работу - фундаментальная вещь от базовых принципов, потому проста в реализации. Но - как я понял бранчинга там дохуя и оно GPU анфрендли, нужно подходящее железо иначе будет oche medlenny yoba - хуй его знает как оно масштабируется на реальные размеры, это выше моего понимания
>>727317 Надо будет запустить на досуге, а то на моих рандомных тестовых данных перплексия за 40 зашкаливает (через менее часа тренировки на мелком датасете, лол). >>727323 Кто будет смельчаком? >>727332 Вот на скрине, буквально сегодня. Качается правда медленно, дольше часа ждать придётся. >>727336 Для кумеров ничего, там до первой кумерской модели ещё полгода минимум.
>>727317 Как я понял, они в архитектуре трансформера заменили многослойный перцептрон на сеть Колмогорова-Арнольда. В этом направлении возможно ещё дохуя открытий чудных, перцептрон это 50е годы, после этого много интересного было сделано.
>>727317 Прочитал оригинальный принт, и я чёт сомневаюсь, что это можно эффективно обучать на чём-то, кроме игрушечных примеров с парой синусов-косинусов. >>727356 Для начала стоит отойти от концепции однопроходного получения результата по одному токену, лол.
>>727317 Я оригинальный KAN пробовал на 4090 вместо линейных слоёв потрогать в супер резолюшене, оно пиздец какое медленное. Если там больше двух слоёв, то пизда. На 5 слоях как будто майнер включается, оно просто бесконечно считает что-то, при этом память не жрёт. Слишком медленное, надо как минимум ждать нормальной реализации типа флеш-аттеншена.
>>727389 >the implementation is still very inefficient, training on the entire MNIST dataset requires 200+ GB of RAM so this is why i used only 30% of the dataset
И вот тут я не понял, оно что еще и память отжирает из-за прогоняемого датасета? Т.е. это не как в обычной сетке гоняй сколько хочешь датасета а память будет той же.
Блин, аноны, я уже тредов 5 не могу понять- стоит ли переходить с Командера на Ллама 70? Просто кто говорит что ллама3 соевая что пиздец, кто-то говорит что вообще ллама3 это будущее и вообще всё ок. Ну так что? Мне просто ебучую лламу 3 качать дней 5.
>>726943 Я вообще первой скачал от какого-то ноунейма, сделана вчера. Пздц как сомнительно, но я рискнул.
Оч.хочу Фи-14б теперь. И раньше хотел, а щас ваще.
>>726970 То обновляется. То не обновляется. То обновляется на хуевом железе. То не обновляется голая официальная винда на топовом железе. Что там не так, блядь. Ясен красен, все в итоге обновил и работает чики-пуки, но почему я должен напрягаться ради автоматической функции, которая даже не отключается, а лишь откладывается!
>>727055 Нет, просто это так не работает на уровне концепции технологии. =) Он у тебя статистически подбирает наиболее вероятный токен в датасете. Грубо говоря. Это не имеет отношения к математике как к процессу решения задачи. Может новые архитектуры будут лучше, но щас у нас есть шо есть.
>>727090 Продолжай свой аутотренинг, понимаю, поему его упомянул, тебе самому только он и остается. Надеюсь, тебе от этого легче. =) Видишь, выше — срусь со всеми, ты такой внимательный!
>>727133 > внутренний диалог на английском может улучшить ответы на русском Вот тут соглашусь. Если сетка именно переводит (т.е., прямо делает перевод), потом пишет ответ (и переводит обратно) — то тут результат будет. Но токенов х3.
> В любом случае всегда тыкаю расскажи о себе любой карточке, сразу показывает как карточка хорошо села на сетку и есть ли косяки. Хороший тест, слушай. Спасибо.
>>727303 Да вроде его и так перезаливали же, или это уже третий-новый перезалив?
>>726937 А, ну так это многие говорили. Но многие же кричали «вы шизы, нейросети не умеют, все хуйня…» Ну, будем честны — Самсунг могли и приврать (процентов на 70 доработок=), но тем не менее, Самсунг — не такая уж хуйня.
Так шо усе будет, как мы и думаем, кто бы что не говорил. Потому что это все довольно очевидная (не)хуйня.
>>727381 Проще сказать чем сделать, для SNN нормального железа нет.
Проблема №1 - полупроводниковые процессы для памяти больших объёмов и вычислительных гейтов слишком сильно отличаются и их невозможно лепить на одном кристалле, поэтому приходится делать минимум два чипа, шину между ними, и постоянно гонять ВСЮ модель из памяти в вычислительный модуль и обратно.
Проблема №2 - число требуемых связей растёт в высокой степени по отношению к числу нейронов, поэтому на плоском 2Д кристалле очень трудно сделать эту хуйню.
Процессоры с комбинированной памятью и вычислениями, заточенные под SNN, существуют, но там очень мало нейронов и синапсов (например Loihi 2), набрать даже 1B весов потребует целого кластера.
Ну и SNN хуже по точности чем обычные сети, однако это может и не быть проблемой - аналог бэкпропа уже придумали, а в последние годы с астроцитовыми моделями и точность сильно подняли. Главное было бы железо, тогда был бы и прогресс. Дип лёрнинг тоже был говном, пока подходящее железо не придумали (GPU).
>>727460 >Дип лёрнинг тоже был говном, пока подходящее железо не придумали (GPU). GPU лучше, чем CPU но тоже говно. Нужна аналоговая память и аналоговые вычислители, по числу нейронов.
>>727468 Оптические уже давно есть, компания Lightmatter делает такие, основатель шибко умный мужик. Но они не могут ускорять всю модель, это очень специфическая штука. >>727472 Не нужны, это потеря точности. Всё всё равно сведётся к малому числу состояний, см бинарные и троичные нейросети
>>727475 >Не нужны, это потеря точности. Всё всё равно сведётся к малому числу состояний, см бинарные и троичные нейросети Не больше, чем при квантовании, зато это дает континуум, а не набор дискретных состояний. К тому же каждое устройство будет обладать некоторый индивидуальность.
>>727475 >Оптические уже давно есть, Не, там китайцы именно нейросети оптические делают с какой то ебанутой производительностью, новостям уже год наверное. Пока что вроде для распознавания изображения, но что то видел и про другое
>>727317 А чего думать, скорее ждать реализации чего-либо. Да еще и ебать математики в которую куда не может навертели. Алсо лучше бы вот эту репу скинул, у нее ахуенное название https://github.com/KindXiaoming/pykan
>>727433 >>727506 Ок. Тогда скажие пожалуйста, какую Лламу3 качать для 40 гб ВРАМ. Я просто только что нагрел Вулкан и уже не очень могу думать. Очень надеюсь на поддержку от анонов.
>>727435 Плюс весит как шаланда полная кефалью. Обычный.
>>727559 Не факт что понравится больше коммандира, всетаки он отлично умеет в нсфв и разные темы из коробки. Но пробовать точно стоит, особенно когда у тебя > 40 гб ВРАМ Главное чтобы поломанные кванты не испортили впечатление. Но всеравно там уже файнтюны потом подъедут, на них еще раз попробуешь.
>>727559 >Обычный. Тады бери, тут ллама 3 70B лучше. Подбирай по размеру да желаемому контексту, возможно тебе придётся скачать 2-3 файла, пока не подберёшь, лол.
>>727593 > Стоит ли на guff перейти? Абсолютно нет. Только если хочешь запускать то что не помещается в врам. С экслламой там, кстати, тоже проблемы были, не с самим квантом но с конфигами. В прошлом треде описаны фиксы, возможно достаточно просто скачать их из обновленных реп не перекачивая сейфтензоры.
>>727342 > Вот на скрине, буквально сегодня. Качается правда медленно, дольше часа ждать придётся. Подожди, а что ты качаешь? Там же модели уже месяц лежат, только ридми обновил, видимо собирается перезаливать только
>>727620 БЛЯДЬ. Нет бы что ли одним действием всё сделать. Да, я наркоман, но и авто репы наркоман ещё больший. Окей, ждём ещё. >>727653 Смотря какой квант.
>>727748 Пока не понятно, влияет ли это только на файнтюны, или на базовую модель тоже. Нужен воспроизводимый на базе тест. Если ллама 3 станет ещё круче, то... Пиздос прогресс.
>>727741 > Нет бы что ли одним действием всё сделать Ну ты понял, мне лень переделывать эту пикчу > Окей, ждём ещё. Но ведь ждуны всегда сосут Вообще интересно всё таки насколько с этой матрицей всё таки эффективнее в случае с этим огромным коммандером, квант для эксламы там небось деградирует сильно с таким, а вот по графикам ппл этот ггуф ещё вроде держится
>>727765 >где идет преобразование У чела там на f32 ггуф проблемы, так что проблема может бы и при расчётах на готовой модели. >Дней без сломанного ггуф 0 Пора пилить мемасик. Мой вариант на скорую руку. >>727777 >Вообще интересно всё таки насколько с этой матрицей всё таки эффективнее в случае с этим огромным коммандером Думаешь (де)фективность i-квантов падает с ростом модели?
>>727790 > Думаешь (де)фективность i-квантов падает с ростом модели? Да хз, но я пробовал как раз iq3_xxs и она вроде не шизила, хотя тестил не долго, буквально на паре карточек
>>727814 >Я её и имел в виду... i кванты это iq3_xxs и другая iq залупа хуита, нужная только для того что бы обменять меньший размер модели на меньшую скорость выполнения Тоесть если врам не хватает, но это ж 3 квант все равно. Лучшее решение iq4_xs
>>727822 Да, симпсоны это классика, тоже хотел предложить
>>727826 >обменять меньший размер модели на меньшую скорость выполнения Так это... Можно впихать больше слоёв на ГПУ, что с лихвой компенсирует потерю скорости. >Лучшее решение iq4_xs Кванты меньше в принципе не качаю. Любимый выбор это старый добрый Q5_K_M, но для моделей 100+B мне уже не хватает ресурсов с пятым квантом.
>>727857 Это ггуф, и у этих I квантов на нем падение скорости в 2-3 раза на процессоре. Мы тут тредов 6 назат тесты делали с ними и с обычными квантами. iq слишком медленно крутятся на процессоре, и скорей всего на видеокарте тоже будет замедление заметное Там разница между iq4_xs и 4_0 или более лучшим 4_к_s гиг что ли, ерунда короче. Но если в твоем случае так лучше то крути
В прошлый раз говорил, что пока локалки не начнут решать квдратные уравнения делать мне с ними нечего, то теперь пока они не начнут решать систему уравнений из 3-ех неизвестных - делать мне с ними нечего и они туповатые. Жду когда они решат такое
Solve this system of equations: 2x-3y+z=-1 5x+2y-z=0 x-y+2*z=3
>>727906 >Просто чтоб быть уверенным, что это не просто говорилка, а что-то больше. а ты не пробовал с калькулятором чатиться? вдруг он заговорит когда сетка решит твои уравнения
>>727888 блэт, кручу вот эту Q6 лламу, работает. там автор ещё говорит что таким образом можно добавлять концепты. а вообще если так подумать, о добавлении концептов, это по своей сути может стать основой для обучения в реалтайм, прямо во время инференса, то нужда в файнтюне отпадёт окончательно.
>>727887 Ещё можно попробовать решать это уравнение на эмуляторе машины Тьюринга на брейнфаке, или там перемножать тысячезначные числа в уме, или одновременно жонглировать 64 троллейбусами из буханок хлеба, но зачем?
Ты пытаешься забить микроскопом гвоздь. Трансформеры трансформируют текст. Используй их для трансформации текста. Написать код на петухоне, решающий это уравнение (или дать текстовые команды из ограниченного набора твоему куркулятору), ей проще, чем решить самостоятельно.
>>727944 А что ты будешь писать, когда ЛЛМ модели смогут решать многие математические задачи? Раньше сомневались, что они вообще способны хоть в какую-то логику.
>>727953 Ничего не буду, а должен? Ты тоже можешь решать многие математические задачи в уме, и побольше чем сетка. Но ты же не страдаешь хуйнёй и берёшь калькулятор, потому что твой мозг для этого плохо приспособлен.
>>727274 >а я не через консоль а через гуй Cобери через гуй команду и сделай себе батник. >претрейн от sft Претрейн это обучение с нуля. А sft это файнтюн. Очевидно, что и то, и другое требует размеченного датасета. >просто рулон текста зарядить Смотри wikidemo.txt, оно умеет без шаблона обучать.
>>727888 Там вроде надо 64 gb vram чтобы попердолить 8b llama
Я где-то обосрался. Что с этим делать? llama_model_loader: loaded meta data with 23 key-value pairs and 322 tensors from E:\kobold\models\c4ai-command-r-v01-imat-Q4_K_%?♥<<Yllm_load_vocab: missing pre-tokenizer type, using: 'default' llm_load_vocab: llm_load_vocab: llm_load_vocab: GENERATION QUALITY WILL BE DEGRADED! llm_load_vocab: CONSIDER REGENERATING THE MODEL llm_load_vocab: llm_load_vocab:
Пробую охлад для теслы при помощи 3д-ручки скалхозить (abs-пластик). Думал, за вечер управлясь, но придётся завтра доделывать.
Надо доделать последнюю стенку с прокидыванием шнура питания и замазать все щели пластиком. Вероятно, ещё стоит по швам пройтись паяльником. И, возможно, ещё стоит бахнуть ещё один слой пластика поверх для прочности и обмотать всё строительным скотчем.
>>728062 Колхоз "Светлый путь", моё увожение. Но такую херню проще из листового металла вырезать за 5 минут ножницами как диды, чем этой хипстерской шнягой.
>>728062 Вы там соревнуетесь что ли в самом ебанутом охладе? Всячески поддерживаю такую наркоманию. Хотя как по мне склейка из бумаги была бы проще и практичнее.
>>728085 Да чем пользуйся? Оно не работает нихуя. Даже не открывается. А в старой версии выдает охуенный результат просто. > в семье две дочки, две мамы, одна бабушка, одна внучка. Сколько человек в семье? > В этой семье пять человек: две мамы, две дочери и одна бабушка, а также одна внучка. Такое ощущение, что вы меня затроллили и командир это говно полное.
>>728087 >Да чем пользуйся? Я сам у себя файлы уже потёр, сейчас жду iq4_xs кванта плюсового. Если у тебя не открывается, то проверяй свежесть инструментов и файлов, хули тут ещё посоветовать.
>>728092 >Кобольд самой новой версии Если ошибка error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r' То недостаточно свежий. Надо из будущего. Пока можно загрузиться в ллама.цп, или из убы тоже самое.
Я даже не удивлен, что GGUF просто сломан по дизайну. Жорик обычный самоучка без профильного образования, хули вы от него хотели. Я сразу косо смотрел на этот проект, но каким-то волшебным образом на волне хайпа он взлетел и его начали везде интегрировать, сработал эффект снежного кома. А теперь никто не сможет это исправить еще год, ибо надо полностью разбирать говнокод на С++ за Жорой. Остается только терпеть.
>>728132 >очень красивый код с правильной архитектурой >вместо прямого переноса регекспов токенайзера гоняет тестовую строку и выбирает захардкоженные варианты свитчем Не, ну всё ещё лучше кода от учёных.
>>727932 >может стать основой для обучения в реалтайм, прямо во время инференса Дожить бы до этого светлого дня. А то конспирологи тут и в других местах хором твердят, что это чуть ли не прямо запрещено. Мол до Скайнета тогда один шаг. А мне плевать - просто хотелось бы сделать модель под себя.
>>727426 Недавно тестил в рп: q3 Command-r 35b VS q2 Llama-3 70b Оба этих варианта занимают примерно одну Теслу с контекстом 4к. По итогу: q2 Llama-3 70b + Заметно умнее командира, даёт более подходящие по смыслу ответы, легко справляется со сложным форматированием, статистикой и групповыми карточками, лучше командера в русском. - Скрытая соя на уровне датасета, с одной стороны легко описывает насилование лолей неграми-кентаврами, если попросить. Но в то же время трешовые персонажи вроде Пахома, которые должны крыть матом и вести себя агрессивно, напрочь лишены яиц, боятся лишний раз нагрубить, а если приходится, то потом оправдываются несколько абзацев. ОЧЕНЬ СИЛЬНО ЛУПИТСЯ и даёт однообразные ответы при свайпах скорее всего особенности q2
q3 Command-r 35b + Ответы и свайпы разнообразны, готов писать любой текст в любом ключе, легко подхватывает заданный стиль. Чётко следует командам и промпту, обращая внимание на мелкие детали. Лупами почти не страдает. - Тупой. Часто отвечает не в тему и несёт отсебятину. В картах со сложным форматированием, забывает про него через несколько сообщений. На русском языке часто вставляет английский текст или выдумывает новые слова.
Выводы: Для чата в стиле "я тебя ебу", Командир - топ, для более сложного и продолжительного РП - Ллама 3.
>>728173 > ОЧЕНЬ СИЛЬНО ЛУПИТСЯ и даёт однообразные ответы при свайпах скорее всего особенности q2 Это норма для неё. Это же инструкт-модель, она очень сильно за контекст цепляется. Врубай DRY-семплер, перестанет шаблонами из прошлых сообщений писать.
>>728173 >q2 Llama-3 70b Лол, блядь. С одной стороны я поехавший, т.к гоняю лламу на тесле в полном размере, но 8b. С другой стороны ты поехавший, т.к гоняешь в q2. Скорее всего по итогу получаем одно и то же. Лупится ллама3 сильно из-за хуёвого промпт формата, бери вилку и настраивай. Ещё что заметил, очень сильно тупеет в чат режиме. Те вещи, которые легко и непринуждённо делает 9 раз из 10 в инстракт моде, не может сделать 10 раз из 10 в чат режиме. Самые большие проблемы, которые я нашёл в лламе, это галюны. Она настолько легко выдумывает постороннюю хуиту, что просто пиздец. Но гопота 3.5, которая сейчас открыта для общественного использования, галлюцинирует ровно столько же. Но глюки для творческих задач скорее в плюс, так как полёт фантазии неограничен. Причём если гопоте пишешь, что ты хуйню выдумал и такого не существует, он извиняется и пишет заново то же самое. Или извиняется и несёт какую-то другую выдуманную пургу. Ллама же говорит что-то "ахахаха, ты наконец-то докопался до истины!"
>>726974 Раньше использовал конструкцию (OOC:), потом просто ста писать system note: в конце, вполне работает. Иногда только так и делаю, чтобы смотреть как будет развиваться ситуация.
>>728195 >Скорее всего по итогу получаем одно и то же. Не соглашусь. По моим наблюдениям низкий квант более жирной модели работает лучше, чем высокий квант или полный размер более мелкой. Как-то давно сравнивал 70В Синтию в q2 и в q8 и основным отличием второго кванта было то что он выдавал одинаковые свайпы при одинаковом промпте, даже перенастройка семплеров мало что давала. 8q мог выдавать точно такие же ответы, но зато каждый свайп давал что-то новое. Так что низкий квант скорее срезает разнообразие возможных ответов, что в отдельных случаях делает модель более тупой, но 3/4 ответов стандарту 70В всё равно соответствуют.
>>727906 Но ллм — это, концептуально, просто говорилки… =)
>>727912 Что вдруг? :) Это статистическая штука, которая чем больше верной статистики имеет — тем с бо́льшим шансом дает верный ответ. А нейросети в принципе устроены по разному, и какие-нибудь нейронки для решения задач — это вообще не в этот тред. Если случится «вдруг» — то это будет для нового треда. =)
>>727923 Кумим с вольфрамом, очевидно, обсуждаем с ним свои проблемы. =)
>>728210 >>>728228 >3/4 ответов стандарту 70В всё равно соответствуют >Совсем нет. Надо бы проверить, если влом не будет. Просто q2, даже хуй знает. Воспринимается как шутка какая-то.
>>728256 Да не, вряд ли автор модели сидит на квантах. Я про демонстрацию пикрила из репы разраба https://huggingface.co/liminerity/Mistral-quiet-star-demo . Вопрос был чёткий, ответа чёткого нет. Модель хуйня, ни разу не кустар какой-нибудь, того же шизо результата можно добиться простым советским промтингом.
>>728238 Слои трансформера сдвигают положение токена в пространстве эмбединга. Даже если верхний токен вдруг поменяется, общий смысл выражения останется тем же, просто перефразирован. Я тестил 70В в q5 и q2, разницы очень мало, по смыслу ответы одинаковые, проёбов по логике нет, разве что высокий квант более сухой, а низкий чуть рандомнее фразы строит. Чем ниже размер сетки, тем больше они страдают от сдвигов в пространстве эмбендинга, на 70В уже оно минимальное из-за возможности большой сетки даже при изменении токенов оставаться с нужной смысловой линии. Особенно учитывая какой недотрейн у 70В сеток.
>>727994 >Претрейн это обучение с нуля. А sft это файнтюн я бы сказал спс кэп, но просто скажу я спрашивал не про это, а чем они и как именно отличаются технически как методы > Очевидно, что и то, и другое требует размеченного датасета. вот в этом я сомневаюсь. А как же pile? по-моему претрейн делается на горе неразмеченных просто данных. Или что для ламы-3 15 т токенов разметили? Да ладно. Поэтому странно что ламафактор хочет форматированные данные для претрейна. И кстати, действительно отличается обучение, похоже претрейн херит всякое форматирование, ему просто похуй эти фигурные скобки в json это ж видно по числу батчей, зачем тогда требует форматированный хуй знает. Ладно, я эту фактори поставил лишь потому что под виндой работает, а так вероятно аксолотль лучше, ну да ладно, что уж есть.
>>728280 >Слои трансформера сдвигают положение токена в пространстве эмбединга. >они страдают от сдвигов в пространстве эмбендинга И что значат эти заумные тезисы?
>>728220 >Но ты герой-слабоумие-и-отвага во втором и третьем кванте запускать. =) Битва инвалидов. Всегда кекаю с таких мнений. А что по твоему будет адекватно запускать на одной тесле?
>>728311 >А что по твоему будет адекватно запускать на одной тесле? До 30B вестимо, или брать вторую теслу. Ну или перiмогать с гуфом. Кванты ниже 4 я в любом случае не рекомендую.
>>728062 О, моё увожение за старания! Но при таком способе страдает герметичность, тебе чтобы не было потерь придётся хорошенько всё замазать чем-то герметичным. Скотч вряд ли будет держать. Гораздо проще было бы склеить это дело из картона переплётного например Ну и охлад в 1,74А может оказаться слабоват. Я свой поменял на прикл и доволен как слон. Андервольтинга до 80% через MSI Afterburner и 50% мощности вентилятора хватает чтобы держать 65 градусов почти в любой задаче. После 50% правда начинается адский шум уровня пылесоса, но запас мощности всё равно штука полезная. Мимо кулибин с ОП-пика
>>728062 Делать чисто ручной 3д ручкой та еще наркомания, лучшеб скреплял ей картон или еще что, тоесть стыки замазывать и соединять детали. Хотя там и термоклей лучше зайдет. Короче все эти плоскости лучше сделать из чего то ровного и твердого.
>>728311 Очевидно, брать одну теслу — само по себе неадекватно. Либо добирать ее к какой-нибудь 12-гиговой 3060, где уже коммандера получше, либо брать две. И была возможность. Да, простите, айтишник, каюсь. =)
Ну и выгружать часть слоев коммандера — тоже неплохая идея.
>>728379 >Ещё предложения будут? Сколько контекста? Та же 7b на тесле сможет 32к что ли полные взять С хорошей скоростью и качеством. Тебе 70b во 2 кванте только короткие забеги рп ерп и загадки отгадывать?
>>728062 пик >>728121 Да не настолько, проблема не только/столько в том что ты описал, а в изначальном дизайне и хотелках, на которых все основывается. Ничего, пофиксят, разберутся, как раз тот самый хайп поможет. >>728173 > Тупой. Часто отвечает не в тему и несёт отсебятину. В картах со сложным форматированием, забывает про него через несколько сообщений. На русском языке часто вставляет английский текст или выдумывает новые слова. Что? Странный у тебя коммандер. У него могут иероглифы проскочить, но таким не страдат, и инструкции прекрасно понимает. > для более сложного и продолжительного РП - Ллама 3 Да хуй знает, как раз ахуительная осведомленность и понимание коммандера здесь невероятно ролляет. С третьей лламой пока даже дойти до фазы реально долгого рп не получалось, унынье местами накатывает. Нужно со всеми фиксами офк повторить или дождаться файнтюнов, в теории она должна быть лучше, но пока нет.
>>728391 >Тебе 70b во 2 кванте только короткие забеги рп ерп и загадки отгадывать? >Сколько контекста? Я запускаю с 4к, если очень ужаться, можно и до 6к ужаться. Для локальной модели это нормально. Вы слишком зажрались. Я начинал с оригинальной пигмы с 2к контекста и даже в него можно уместить РП на 20-30 сообщений. Вам дали вектора, сумоморайз, лорбуки, но нет, все должны запускать карточки на 4к токенов и докупить пару тесл для контекста. Если без 100к контекста не видите смысла РП-шить, то 3 теслы не помогут, лучше сразу в соседний тред - клянчить токены.
>Та же 7b на тесле сможет 32к что ли полные взять >С хорошей скоростью и качеством. Ты видимо сам 7В запускал только для тестов загадок, они легко забивают на факты упомянутые в начале уже через пару реплик, нахуя им 32к? Пока у меня не было теслы, крутил локально именно 7В, пришёл к выводу что чем меньше контекст, тем меньше они шизят. В идеале последние 2 сообщения чата + сумморайз с предысторией.
>>728417 >Ты видимо сам 7В запускал только для тестов загадок, Я программирую с сеткой на 7b, и она спокойно держит контекст весь диалог Если у тебя сетка забывает все через 2 сообщения, ну скилл ишью
>>728415 Эт может быть только питание, вот если бы там была плата мелкая с датчиком температуры - это было бы веселее. Тогда даже если только питание от теслы брать работало бы как надо
>>728417 > карточки на 4к токенов Это мусор, зря притащил. А к 8-12к контекста привыкли еще прошлым летом-осенью, когда уже были хорошие годные 70 и 20. > нахуя им 32к Вот это верно, семерки пиздец тупые и такой контекст там лишь для галочки. Они просто не могут даже оформить суммарайз. Внимания хватает только на самый старт и самый конец, в редких случаях могут что-то "поискать" в контексте. На то чтобы имеющийся объем"обдумать" и сделать выводы - без шансов. > В идеале последние 2 сообщения чата + сумморайз с предысторией Но это уже слишком, не настолько.
>>728379 >>728238 Или я что-то делаю не так, или все хуйня. Но пробовал второй и третий квант 70В лламы и в целом никакой принципиальной разницы с лламой 8В не вижу. Командир же вообще серит под себя даже с 6 квантом.
>>728419 >Я программирую с сеткой на 7b, и она спокойно держит контекст весь диалог В программировании обычно просят модель написать код, а потом постепенно вносят в него правки, то есть ключевое значение имеет только последнее сообщение, что для 7В вполне выполнимо. А вот вспомнить что в середине РП диалога персонаж сунул в карман 100 баксов - уже сложнее.
>>728449 Нету квантов, как и моделей, лол, поэтому и спрашиваю. Я вообще максимизатор, люблю брать 70-100B и страдать на 1.7 токенов. Просто для меня 2 бита это прям ужас какой-то.
>>728446 Нет там полноценный полнооборотистый чат, с анализом кода, исправлениями и добавлениями, оптимизацией. Факт в том что они могут работать с большим контекстом А ты там заливаешь что они едва 2 сообщения помнят. Ну конечно если грузить тупенькие сетки кучей рп инструкций с карточками на 2к токенов, а потом ее спрашивать, она может запутаться
>>728419 >Я программирую с сеткой на 7b, и она спокойно держит контекст весь диалог А какая модель? Я перепробовал кучу всяких - codeqwen, deepseek, starcoder, santacoder, wavecoder, наверно еще какие то. В целом довольно средний результат. Вообще больше всего меня впечатлил gpt3.5 в самом начале, потом он сильно отупел. Но там наверное играет роль, что это был первый подобный опыт.
>>728473 Всеравно подобный формат очень легко читаем/воспринимаем моделью, там не нужно рассеивать внимание по всему и делать сложный анализ. А так на большом чате с кодом даже опущ начинает ловить затупы, из-за чего приходится чистить или начинать новый уже с другими задачами и исходниками, куда там 7б.
>>728520 Ну так любая сетка это инструмент, и от тебя зависит как ты им пользуешься
>>728497 Пока ллама 3 8ь инструкт для анализа кода и генерации идей и кодеквин для доделывания за ней кода, хотя и самостоятельно могёт в первое. Там еще новая ллама 3 8ь вышла кодерская недавно, писали что бомба но пока руки не дошли проверить Питон если что
>>728386 >Русская, с нуля Посмотрим, всяко не хуже наверно чем tinyllama как игрушка для трейна по меньшей мере. Можно потрейнить на че-нить интересненькое. А зачем создатель сделал новый акк и миллипиздерными буковками оставил ссылку на свой основной - из боязни опозориться чтоль? да нахуй - там такую гавенную ебанину зарубежные ебланы вываливают в репозитории, с таким самомнением как будто они по меньшей мере академики бигдаты и профессора алгебры, а этот чел чего такой застенчивый.
>>728540 Технически должно быть как и у любого другого базового микстраля, по факту проверяй сам, многочисленные мержи и трейны могут как похерить контекст, так и бустануть его.
>>728544 > ллама 3 8ь вышла кодерская недавно https://huggingface.co/models?sort=trending&search=llama-3+code Как пишет автор немного сломанная но все еще рабочая, пилит там 2 версию с исправленным датасетом То что он ее тренил на квантах вызывает вопросы к конечному качеству, ну посмотрю как скачаю если время будет
>>728548 > А зачем создатель сделал новый акк и миллипиздерными буковками оставил ссылку на свой основной - из боязни опозориться чтоль? Та фиг знает, не мое. =) Может и правда скромняша.
>>728430 Сейчас попробовал 7В Лламу в FP16 и впечатления смешанные. За счёт разнообразия ответов вполне себе обходит Командера и 70В Лламу, но уступает им в понимании сложных ситуаций + менее охотно переходит на русский. Вот например https://www.chub.ai/characters/Nyatalanta/frilia-55c032c7 карточка со сложным для модели началом. 7В не выкупает что ты находишься в закрытой капсуле, у двух вышеупомянутых моделей таких проблем нет.
>>728617 >менее охотно переходит на русский Я тут phi3 на русском на изи заставил писать, ллама 3 8ь так же легко на него переходит. Не понимаю проблем с тем что бы перевести сетку на русский.
И свайпаю если с первого раза не сработало, что редко, всё. Если дело в рп карточке то писать оос - дальнейшая история идет на русском языке, ну или как то так Сетка выполняет инструкции, дай ей инструкцию и она попытается ее выполнить
>>728632 >>728635 >Как ты это делаешь, расскажи тогда? Я не он, но 70В Ллама - просто добавляешь в систем промпт: ОТВЕЧАЙ И ОПИСЫВАЙ ДЕЙСТВИЯ ТОЛЬКО НА РУССКОМ ЯЗЫКЕ! 7В Ллама - то же самое, но также надо перевести на русский весь систем промпт и карточку персонажа. Иначе пишет на английском, но говорит что это русский.
>>728644 >Иначе пишет на английском, но говорит что это русский. Либо духи машин меня боятся и делают все без выебонов, либо я не знаю У меня английские карточки на русский переходят с 1-2 попыток, хоть и хуевенький
>>728686 Как будто каждый ллмщик не впитывает с молоком матери значение слова эмбединг и понимание того, что его максимальная позиция ограничивает этот самый контекст. Ну это так, бурчание старика.
>>728644 > Иначе пишет на английском, но говорит что это русский. Как вы этого добиваетесь? Gguf? Даже 8б легко воспринимает инструкцию с ответами на разных языках. Особенно забавно работает на карточках типа Аой, где по сценарию ответы на нескольких языках, добавляя в скобках дополнительный перевод на русский для остального. >>728748 В системный промт/префилл добавь чтобы модель избегала ебли и фокусировалась на сюжете.