/ai/ - Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №28

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №28 /llama/ Аноним 21/11/23 Втр 17:31:23 № 550038 1

Альфа от контек[...].png 121Кб, 3090x1830

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>545044 (OP)
>>542483 (OP)

Аноним 21/11/23 Втр 17:37:48 № 550044 2

Напоминаю, что у нас есть целый железотред, который уже полгода перекатить не могут.
>>212147 (OP)

Аноним 21/11/23 Втр 17:42:58 № 550053 3

>>550038 (OP)
Как насчет добавить в следующую шапку инфу по мультимодалкам, их запуску, использованию и т.д.?

Аноним 21/11/23 Втр 17:43:37 № 550054 4

>>550044
Всю нищету с копро-серверами и дедушкиными P40 надо туда отправить.

Аноним 21/11/23 Втр 17:45:02 № 550056 5

>>550054
>копро-серверами
Мета треда.
> P40
Новая База треда.

Аноним 21/11/23 Втр 17:46:49 № 550057 6

>>550054
Отчасти поддвачну. Совсем совсем выгонять может и не стоит, всеже про запуск, но i want to believe, топ за свои деньги, хвсрачи и подобное надо нахуй туда депортировать ибо в этой шизе полезный релейтед теряется.

Аноним 21/11/23 Втр 17:56:07 № 550062 7

>>550053
Шапка достигла максимального размера, так что добавлять туда можно только ценой минета абу за расширение лимита удаления чего-то старого, ну или переноса шапки полностью на ретрай (не хочу, ибо падает постоянно).

Аноним 21/11/23 Втр 18:01:17 № 550066 8

>>550062
Если будет не лень то на рентрае что-нибудь накидаю, ведь тема интересная и полезная, а ее незаслуженно обходят стороной. И часть из шапки не мешало бы вынести туда же, без форматирования и картинок тяжело воспринимается. тредик не болей, все срачами по смежным темам загадили

Аноним 21/11/23 Втр 18:13:41 № 550077 9

image.png 145Кб, 988x161

можно и удалить, только место занимают

Аноним 21/11/23 Втр 18:23:22 № 550083 10

и вобще это ж ллм тред, пусть по шапке нейронка пройдется и оптимизирует ее

Аноним 21/11/23 Втр 18:33:07 № 550099 11

>>550062
Что думаешь насчёт переноса шапки в данную вики, по типу того, как это было сделано в технотреде https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/ ? Там тоже шапка уже раздулась до невозможности и её перенесли.

Из плюсов: можно переносить важную инфу по разным файлам https://gitgud.io/2ch-ai/wiki/-/tree/master/docs/tech , делать структурированные рендеры разметки маркдауна, как это было сделано с инфой из войс-треда >>546930 → https://2ch-ai.gitgud.site/wiki/speech/

Из минусов: надо в гит и маркдаун, можно впринципе и через вебинтерфейс.

Могу выдать права мейнтейнера, если интересен такой вариант, чтобы ты мог без форков в основной репе сразу инфу добавлять.

Аноним # OP 21/11/23 Втр 18:57:33 № 550122 12

>>550099
>Из минусов: надо в гит и маркдаун, можно впринципе и через вебинтерфейс.
И главный минус- если сайт наебнётся, или там решит, что чёлки у авторов не в ту сторону пострижены, то всё это наебнётся нахуй.
>Могу выдать права мейнтейнера
Кидай, разберусь на выходных. Фейкоакк llamanon

Аноним 21/11/23 Втр 19:11:38 № 550142 13

>>549933 →
>полностью выгруженных 7б q8 - 25 т/с
>13b Q8 (как раз примерно на большую часть памяти карты) - 4.83т/с
>у другого на 30б с почти полной выгрузкой быстрее, в районе 10 или больше
То есть из очевидных минусов только неясные перспективы запуска 70В на 3 картах?

Аноним 21/11/23 Втр 19:17:54 № 550147 14

>>550142
Даже не двух. Если такой перфоманс достижим и за такую цену с учетом оговорок (горячая, перфоманс в остальных нейронках известно что низкий, пылесос по шуму и цирк с охлаждением, лошадка очень много пахала и насколько здорова не ясно) устраивает - почему бы и нет.

Аноним 21/11/23 Втр 19:21:35 № 550156 15

>>550122
> И главный минус- если сайт наебнётся, или там решит, что чёлки у авторов не в ту сторону пострижены, то всё это наебнётся нахуй.
Расчёт идёт на две вещи:
1. Если открыть топ проектов на gitgud по числу звёзд https://gitgud.io/explore/projects?sort=stars_desc то можно увидеть, что там проекты с лоликоном и прочим хентаем занимают топы, и живут по нескольку лет. И ссылки на nai leak там хранились в каких-то md-файлах, их никто не сносил. А вот в том же github у automatic1111 сносили репу за неправильные ссылки в readme.

2. Это примитивная система без какой-либо базы данных, просто куча md в html конвертится средствами либы на питоне. Её можно заменить на любую гит-репу и копеечный хостинг для статики. Полная локальная копия проекта делается по сути через git clone.

> Кидай, разберусь на выходных. Фейкоакк llamanon
Выдал права.

Аноним 21/11/23 Втр 20:39:38 № 550286 16

>>550038 (OP)
О ты обновил шапку? Хорош.

Аноним 21/11/23 Втр 21:38:55 № 550391 17

Научите кумать

Аноним 21/11/23 Втр 22:26:54 № 550498 18

>>550391
Держи, тут полная инструкция.
https://www.youtube.com/watch?v=uk1_bbCeP3M

Аноним 22/11/23 Срд 00:48:31 № 550719 19

1651919119812.mp4 14276Кб, 1280x720, 00:00:44

1661882896086.webm 9330Кб, 1270x720, 00:00:46

1663672881678.webm 255Кб, 512x400, 00:00:03

https://github.com/PKU-YuanGroup/Video-LLaVA
Ну что, господа, развитие мультимодалок?
>>550498
> The video shows a man and a woman talking in a kitchen, and then the man leaves. Later, the man is seen walking in the woods and talking to another man.
Такие длинные и абстрактные видимо не может

1 видео
> In the video, we see a person riding a bike down a street while holding a camera. The person is wearing a white shirt and black pants. As the person rides, they pass by a gas station and a car dealership. The camera captures the person's movements as they ride down the street.
2
> In the video, we see a man lying on the ground while another man is kneeling next to him. A third man is standing up and talking to the man who is kneeling. The man who is kneeling then proceeds to tie the hands of the man who is lying on the ground. After that, he ties the legs of the man who is lying on the ground. The man who is kneeling then stands up and walks away. From the video, it seems like the man who is lying on the ground is being restrained or tied up for some reason. The man who is kneeling is most likely the one who is restraining the man. The man who is standing up and talking to the man who is kneeling is not clear what his role is in the situation. Overall, the video seems to depict a tense and potentially dangerous situation.
3
> In the video, a woman is seen standing in a hallway and looking at a sign on the wall. She then enters a bathroom and talks to a man who is sitting on a toilet. The man is wearing a green shirt and is seen laughing. The woman then leaves the bathroom and talks to another man who is standing in the hallway. The video seems to be a light-hearted conversation between the two men in the bathroom.
4
> In the video, we see two men fighting in a room. One of the men is shirtless, and they are both kicking each other. The men continue to fight, and the shirtless man eventually picks up the other man and throws him down. The shirtless man then stands over the other man, who is on the ground. The video ends with the shirtless man standing over the other man.
(динамическая ампутация конечностей при контрнаступлении, заливать не буду)
> In the video, we see a group of soldiers walking through a field, and they are carrying guns. They are also seen walking through a forest and a field. The soldiers are also seen driving down a dirt road in a military vehicle.

Оно пытается но больше похоже на просто анализ нескольких кадров без динамики.

Аноним 22/11/23 Срд 00:52:11 № 550723 20

1554774812631.webm 1907Кб, 654x720, 00:00:10

>>550719
В догонку любителям бондов и эдвенчурок
> In the video, we see a man riding a motorized cart down a street. He is wearing a helmet and a pair of sunglasses. As he rides, he passes by several cars and a truck. The man appears to be enjoying himself as he rides around, taking in the sights and sounds of the city. The street is busy with traffic, and the man seems to be navigating his way through it with ease. The video captures the man's sense of freedom and adventure as he explores the city on his cart. Overall, the video showcases the man's love for adventure and his ability to find joy in the simple things in life.

Аноним 22/11/23 Срд 09:48:03 № 550935 21

Deja vu
Емнип, один анон из треда (обнял того няшку) купил у этого же продавана и просил потестить викуну. Лол.

Аноним 22/11/23 Срд 09:56:14 № 550940 22

>>550935
А что 7b? Совсем маленькая же, она и на 8 гигов отлично тянет.

Аноним 22/11/23 Срд 09:57:57 № 550942 23

изображение.png 41Кб, 1204x265

>>550935
Я мистраль попросил. Можешь попросить у него Yi 6B для разнообразия.

Аноним 22/11/23 Срд 10:06:31 № 550950 24

>>550719
>Overall, the video seems to depict a tense and potentially dangerous situation.
Напрягся.

Аноним 22/11/23 Срд 13:41:42 № 551108 25

>>550942
А лучше 34б, она полностью 4qks квантом влезает в видеопамять. В конце концов, такое не для 6-7б покупается.

Аноним 22/11/23 Срд 13:45:35 № 551113 26

>>551108
Так то, если захочется запустить на каждой карте по агенту со своей нейронкой, а потом уже координировать их работу то 7b сойдет.
Они будут достаточно быстро выдавать результат, несмотря на то что им нужно будет кучу раз передать его друг другу. 20-30 токенов в секунду как раз норм скорости для этого. А вот 34b уже медленнее, токенов 6-7 хорошо если будет. Впрочем они и качественнее должны быть, хмм.

Аноним 22/11/23 Срд 13:51:58 № 551116 27

>>551113
> если захочется запустить на каждой карте по агенту со своей нейронкой
В 24 влезут две 7б если отказаться от фп16.
> будут достаточно быстро выдавать результат, несмотря на то что им нужно будет кучу раз передать его друг другу
Что?

Аноним 22/11/23 Срд 13:55:52 № 551118 28

>>551116
>В 24 влезут две 7б если отказаться от фп16.
скорости меньше, но можно и так хули нет

>>551116
>Что?
Как там агенты работают? Каждый по своему промпту, каждый может делать что то одновременно с другими, потом отсылают результат координатору, тот снова загружет их и тд. Можно конечно по цепочке работать, как уж их настроишь.

Аноним 22/11/23 Срд 14:02:05 № 551122 29

>>551118
> скорости меньше
С чего вдруг? Использоваться единомоментно всеравно будет одна.
> Как там агенты работают?
В гопоте просто выбор отдельной сетки, которая наилучшим образом подойдет. В реализации lmoe Джона вместо отдельных моделей накатывается подходящая лора. Все.
> Каждый по своему промпту, каждый может делать что то одновременно с другими, потом отсылают результат координатору, тот снова загружет их и тд.
Это уже совет экспертов, или как хочешь называй, более сложная и заморочная в конфигурировании херь.

Аноним 22/11/23 Срд 14:06:49 № 551127 30

>>551122
> более сложная и заморочная в конфигурировании херь.
ну и более эффективная, хотя конечно от мозгов сеток будет зависеть.
Вобще на роль координатора наверное лучше сетку по умнее ставить, тот же 34b. А специализированные 7b на выдачу результата. Те же прогерские сетки.
Короче это тема, но сложная. Хотя решения уже созданы, на том же гитхабе куча есть

Аноним 22/11/23 Срд 14:07:37 № 551128 31

>>551122
>С чего вдруг? Использоваться единомоментно всеравно будет одна.
место для контекста сожрет, хотя если нужен будет небольшой контекст то и 2 можно крутить

Аноним 22/11/23 Срд 14:38:27 № 551152 32

>>551127
> ну и более эффективная
Про 20-80 слышал? Если общий случай рассматривать то уже специализация сетки или хотябы промта даст основной эффект и незначительно замедлит обработку. С мультизапросами нужно понимать для чего именно это нужно и очень четко организовывать, чтобы не получилось что из двух правильных подробных и одного всратого ответа не был выбран только третий, и тот урезанный, зато шиза из него была аргументирована убедительно по аналогии с двумя правильными.
> Вобще на роль координатора наверное лучше сетку по умнее ставить
В том и суть, тогда вообще придет к тому что "эксперты" - просто источник инфы и подготовка ризонинга, которые облегчают работы самой умной модели.
> Хотя решения уже созданы, на том же гитхабе куча есть
Покаж
>>551128
> место для контекста сожрет
У Жоры все плохо с этим, но разве настолько? 7б q8 с приличным контекстом должна занимать не более 12 гигов.

Аноним 22/11/23 Срд 14:50:55 № 551165 33

>>551152
>Покаж
https://github.com/topics/autonomous-agents
Кучи, но в основном через апи к гопоте. Но есть и локалки, тока мало.

>Про 20-80 слышал?
Это уже вопросы реализации, а по идее это эффективнее.

>В том и суть, тогда вообще придет к тому что "эксперты" - просто источник инфы и подготовка ризонинга, которые облегчают работы самой умной модели.
Большая разбивает задачу на части, и дает мелким.Ээксперты предварительно обрабатывают инфу по своей специализации, а потом уже работает большая с их результатами. Ну как то так примерно.

>У Жоры все плохо с этим, но разве настолько? 7б q8 с приличным контекстом должна занимать не более 12 гигов.
Хз, так и 3 можно впихнуть если контекст не нужен большой, если там зерошот или 1-2 вопроса то и 2-3к хватить может.

Аноним 22/11/23 Срд 15:11:18 № 551182 34

>>551165
> https://github.com/topics/autonomous-agents
На первый взгляд там оболочки для хранения промтов к гопоте и гуи для запросов к ним с некоторой автоматизацией, очередью запросов и т.д. Самое базовое - последовательность из них с детальным промт-менеджментом, подробными логами и принятием решений на основе ответов хоть построить можно?
> в основном через апи к гопоте
Это то наименьшая из проблем, другое дело что могут полезть промтопроблемы из-за заложенных в глубине особенностей.
> Это уже вопросы реализации, а по идее это эффективнее.
Кратно замедляешь скорость без гарантии лучшего ответа. Сделать реализацию чтобы выхлоп превосходил затраты не так уж просто, возможно без специфичного файнтюна и вовсе невозможно. А изначальный выбор модели и параметров не приводит к замедлению и сразу дает результат.
> Хз, так и 3 можно впихнуть
Врядли, много жрет слишком. Фп16 на жоре съедает более 16 гигов, может быть q6k еще удастся втиснуть.

Аноним 22/11/23 Срд 15:16:02 № 551187 35

>>551182
>Самое базовое - последовательность из них с детальным промт-менеджментом, подробными логами и принятием решений на основе ответов хоть построить можно?
Откуда мне знать? Я не датасатанист, но скорей всего да. Иначе нахрена они нужны?
В целом согласен, апи можно и на локальный переделать, это не проблема.

>Врядли, много жрет слишком. Фп16 на жоре съедает более 16 гигов, может быть q6k еще удастся втиснуть.
Ну 3 сетки займут 21-22 гб, останется 2-3 гига на контекст, сколько там не скажу, но даже с 8q если запускать по одной сетке выделяя только одной сетке за раз контекст - сойдет и 3. Надо просто не выгружать сетки из памяти что занимает больше всего времени, а выделять/удалять контекст должно быть быстро.
Но нахрена 3 сетки на одном я не знаю.

Аноним 22/11/23 Срд 15:35:12 № 551202 36

Я тут с https://github.com/PromtEngineer/localGPT игрался вчера, но так нормально завести и не смог, ебля одна с командной строкой. С куда не смог собрать llama.cpp на какую то хуйню ругается, так вроде работает но меееедленно.

Аноним 22/11/23 Срд 15:38:47 № 551210 37

>>551187
> Откуда мне знать?
Ну бля, написал что примеров дохуя, вот и подумал что шаришь конкретно в этом.
> апи можно и на локальный переделать
К стоковой llamacpp идет впопеновский эмулятор, так что тут просто. Другое дело что с настройками семплинга, параметрами да и самим системным промтом придется играться.
> Ну 3 сетки займут 21-22 гб, останется 2-3 гига на контекст
Под контекст каждая себе дохрена выжрет, на экслламе то без проблем заведется, а с жорой - не.
Ради интереса скачал q6k - вот с ним с умеренным контекстом влезают. Перфоманс такого кванта 7б - вопрос отдельный, надо изучать.
> Надо просто не выгружать сетки из памяти что занимает больше всего времени, а выделять/удалять контекст должно быть быстро.
Рамдиск если лениво, или переписать в исходниках кэширование в рам если по-правильному.
> а выделять/удалять контекст должно быть быстро
Как бы всю llamacpp перелопачивать не пришлось, она просто при самом запуске много выжирает.
> Но нахрена 3 сетки на одном я не знаю.
3 специализированных файнтюна под свои задачи.

Аноним 22/11/23 Срд 15:43:36 № 551217 38

>>551210
>Ну бля, написал что примеров дохуя, вот и подумал что шаришь конкретно в этом.
Это нужно быть не просто в теме, но и знать возможности каждого проекта, а там сам понимаешь ногу сломишь.

>3 специализированных файнтюна под свои задачи.
Вот я и думал нахрена 3? Одна общего направления, один специалист с которым она будет работать, тот же прогерский файнтюн. А 3? Не помню сильно специализированных файнтюнов кроме как прогерских. Все остальное может делать общая сетка.

Аноним 22/11/23 Срд 15:44:59 № 551221 39

>>551217
> Не помню сильно специализированных файнтюнов кроме как прогерских.
хотя там можно крутить tts или чет подобное, не полноценую llm чатбота

Аноним 22/11/23 Срд 15:55:39 № 551234 40

>>551217
> Вот я и думал нахрена 3?
Зависит от задачь же, так может вообще одной с разными промтами хватить, как для рп-сторитейла. Хотя рили можно попробовать туда пигму или семерку посадить на персонажа, чтобы не пыталась лишнего додумывать.
Если чето посложнее и универсальное - одна на кодинг, одна на лингвистику/полиглотизм, одна с технической направленностью, одна на биологию, одна на психиатрию, ну и рпшечка в такой команде лишней не будет. Плюс общего назначения, которая как минимум будет делать выбор на основе контекста. Если упороться - можно сразу 2-3 пускать наиболее подходящие, а потом между ними перекрестный опрос.

Основная проблема тут в отладке всей это системы, 2.5 варианта просто промтом отличающихся уже заморочно, а тут если какая-то сеть обосрется где-то внутри то все может обрушиться.

Аноним 22/11/23 Срд 16:02:24 № 551239 41

>>551234
>Зависит от задачь же, так может вообще одной с разными промтами хватить, как для рп-сторитейла. Хотя рили можно попробовать туда пигму или семерку посадить на персонажа, чтобы не пыталась лишнего додумывать.
Для рп одной сетки хватит, по очереди разный промпт загружать и все.

>Если чето посложнее и универсальное - одна на кодинг, одна на лингвистику/полиглотизм, одна с технической направленностью, одна на биологию, одна на психиатрию, ну и рпшечка в такой команде лишней не будет.
Это уже команда для спасения мира, не иначе. Не уверен что сетка менеджер осилит больше 2 сеток специалистов, запутается или обосрется.

> Если упороться - можно сразу 2-3 пускать наиболее подходящие, а потом между ними перекрестный опрос.
Ну вот да

>Основная проблема тут в отладке всей это системы, 2.5 варианта просто промтом отличающихся уже заморочно, а тут если какая-то сеть обосрется где-то внутри то все может обрушиться.
Это определенно не для развлечения самого себя делать, под какое то задание или упрощение своей работы в каких то рутинных задачах самое то. А что бы самому не заморачиваться настройкой специалистов как раз и нужна общая сетка которая будет им давать в нужном формате инфу и обрабатывать их вывод.

Аноним 22/11/23 Срд 16:04:58 № 551241 42

>>551202
запуск стандартного пдф файла который сетка отрабатывает из гуя

Аноним 22/11/23 Срд 16:26:16 № 551263 43

>>551239
> Для рп одной сетки хватит
В новом апи убабуги можно и лоадерам команды отдавать, надо с разными экспериментировать.
> команда для спасения мира
Которую мы заслужили, лол. Но вообще почему бы и нет, если динамическая подгрузка не будет слишком долгой.
> сетка менеджер осилит больше 2 сеток специалистов
С запросом типа "вот контекст - X, вот последний запрос - Y. Выбери из разделов [a,b,c,d,...] пару наиболее подходящих по тематике". Такое без проблем осиливают даже мелкие.
> Это определенно не для развлечения самого себя делать
Всмысле? А для кого еще?
Оставляя в стороне смехуечки оно и для развлекухи чтобы разнообразить рп, и для каких-то задач пойдет. Только для последнего подобная система и не всегда нужна, более простая но узкоспециализированная может лучше зайти.
> А что бы самому не заморачиваться настройкой специалистов как раз и нужна общая сетка которая будет им давать в нужном формате инфу
Сначала придется заморочиться с настройкой общей сетки чтобы она правильным образом переобрабатывала инфу если такое предполагается, уже на этом можно обосраться. А потом уже отлаживать и выдрачивать каждого специалиста в отдельности, чтобы он выполнял именно свои задачи и корректно реагировал на вход, а не ломался с шизой. А уже после этого опять возвращаться к общей сетке и отлаживать ее суммаризацию и отсеивание потенциально неверных ответов или представление двух противречащих друг другу.

Аноним 22/11/23 Срд 16:31:19 № 551269 44

>>551263
>Сначала придется заморочиться с настройкой общей сетки чтобы она правильным образом переобрабатывала инфу если такое предполагается, уже на этом можно обосраться.
Что сводится к мозгам сетки менеджера

>Всмысле? А для кого еще?
Не ну так то да, просто если по приколу делать то и по работе че нибудь сделать можно, хотя зависит от работы конечно.

Аноним 22/11/23 Срд 16:35:10 № 551280 45

>>551269
> Что сводится к мозгам сетки менеджера
Что?
> хотя зависит от работы конечно
Все верно, но пока что для такого видятся только узконаправленные конкретные конструкции, а та штука - лишь способ улучшить ответы всратых сеток.

Аноним 22/11/23 Срд 16:36:34 № 551283 46

>>551280
>Что?
чем умнее - тем меньше ебли с ней, так как она лучше понимает че ты от нее хочешь, очевидно ведь

Аноним 22/11/23 Срд 17:52:43 № 551409 47

https://www.reddit.com/r/singularity/comments/180ozxm/stability_ai_today_we_are_releasing_stable_video/
чё каво выносим вперед ногами следующим

Аноним 22/11/23 Срд 17:55:41 № 551412 48

Аноны, подскажите сколько гигов видеопамяти нужно для контекста.
Короче, у меня RTX3050 с 4Gb. Ясен пень, модель приходится загружать в оперативку, оперативки у меня 32 гига.
Как я понял, весь контекст я должен выгружать в видеопамять, да? Сколько контекста максимум мне доступно?

Аноним 22/11/23 Срд 17:55:48 № 551413 49

>>551409
Тебя, с баном на недельку.

Аноним 22/11/23 Срд 17:58:27 № 551415 50

https://www.reddit.com/r/LocalLLaMA/comments/180uz42/today_is_the_first_day_im_getting_results/
вот кстати пара локальных агентов, на сколько я понял

Аноним 22/11/23 Срд 17:59:11 № 551418 51

>>551413
нуну и причина?

Аноним 22/11/23 Срд 18:02:21 № 551425 52

>>551412
>Сколько контекста максимум мне доступно?
Зависит от модели, при загрузке же пишет, сколько будет юзать.

Аноним 22/11/23 Срд 18:06:16 № 551434 53

>>551418
Шитпостинг нерилейтедом.

Аноним 22/11/23 Срд 18:08:39 № 551438 54

>>551434
доказывай

>>551412
>Как я понял, весь контекст я должен выгружать в видеопамять, да?
если крутишь на процессоре то плевать на то где контекст, скорости сильно не просядут

Аноним 22/11/23 Срд 18:16:40 № 551448 55

>>551425
Ну а в среднем для популярных ныне моделей. Реально контекст в 4 гига запихнуть?

>>551438
В прошлый раз мне говорили наоборот. Дескать, без видеокарты нет пути контекст будет обрабатываться минутами. Понятное дело что по полчаса ответов ждать я не хочу.

Аноним 22/11/23 Срд 18:21:53 № 551453 56

>>551448
>В прошлый раз мне говорили наоборот. Дескать, без видеокарты нет пути контекст будет обрабатываться минутами. Понятное дело что по полчаса ответов ждать я не хочу.
Если видеокарта есть как та же 3050 с малым количеством памяти, то ты не будешь выгружать на нее слои, ибо бессмысленно почти.
Значит ты просто запускаешь сетку без оффоада слоев, карта чисто как ускоритель чтения с кублас.
А там падение генерации почти не заметно при переполнении контекста в врам. Просто медленно будет замедлятся.
Ну скажем с 5-6 токенов в секунду до 3-4 на 8к контекста, который точно выйдет за пределы врам.

Аноним 22/11/23 Срд 18:25:51 № 551456 57

>>551448
>Ну а в среднем для популярных ныне моделей.
Зависит от размера модели.
>Реально контекст в 4 гига запихнуть?
Да.

Аноним 22/11/23 Срд 18:28:02 № 551458 58

https://huggingface.co/pansophic/rocket-3B

Аноним 22/11/23 Срд 18:43:29 № 551480 59

>>551458
>3B
Да блядь. Пусть сделают нормальную топовую 70B, а не насилуют эти огрызки.

Аноним 22/11/23 Срд 18:46:07 № 551488 60

>>551480
Кто знает, могут и до качества ллама 2 7b дотянуть их, но конечно лучше не квантовать. Тут 7b от квантования плющит, от 3b мало че вобще останется по логике.

Аноним 22/11/23 Срд 18:49:24 № 551491 61

>>551488
>могут и до качества ллама 2 7b дотянуть их
Да, но нахуя? У нас и так ллама 2 7b есть, по требуемым ресурсам более чем толерантная.

Аноним 22/11/23 Срд 18:50:31 № 551492 62

>>551491
>Да, но нахуя?
Спроси. Раз делают значит зачем то нужны. Ну тот же раг запускать, я хз.

Аноним 22/11/23 Срд 19:02:25 № 551509 63

>>551492
Хотя скорей всего для рынка мобильников и умной техники. Кто сможет создать маленькую и рабочую на мобильниках локально модель - тот озолотится. Ну и как тест способностей и проверка методов обучения. Тренировать 3b гораздо быстрее и дешевле чем 70b

Аноним 22/11/23 Срд 19:03:17 № 551511 64

>>551453
> карта чисто как ускоритель чтения с кублас
Без выгрузки слоев это дает не так много прироста и обработка контекста остается относительно медленной. Вон человек тестил >>544668 → с довольно мощной карточкой, хз что там по остальному железу, ожидания генерации токенов при переобработке окна 4к - почти минута, что весьма грустно. Если у кого еще результаты есть с другими карточками, особенно затычками с номинальной кудой - интересно оценить, заодно понять влияние остального железа.
>>551480
> нормальную топовую 70B
Это нужно минимум машину с пачкой A100 и часы-дни-недели-месяцы для отладки и опимизации своейго файнтюна. А с огрызками даже на десктопных видюхах можно поиграться., потому и лезут они.

Аноним 22/11/23 Срд 19:05:52 № 551516 65

>>551511
>остается относительно медленной.
Все так, но с относительно медленной это ты насмешил.
Сравни без кублас и с кублас, там уже не будет просто относительно медленной.
Это гигантский разрыв в скорости, даже на картошке с куда.

Аноним 22/11/23 Срд 19:09:32 № 551525 66

>>551511
>Вон человек тестил >>544668 → → с довольно мощной карточкой
Именно, я тестил макс скорость обработки контекста. И это минута на 4к. На проце я бы вовсе не дождался окончания.

Аноним 22/11/23 Срд 19:17:11 № 551530 67

U-Amethyst-20B
Затестил модель, прям ух бля. Естественно среди нищих моделей, меньше 70b.
Где почитать про эти ваши ропы для контекста, а то я отстал от жизни.

Аноним 22/11/23 Срд 19:49:04 № 551545 68

image.png 16Кб, 1137x120

image.png 23Кб, 1152x130

image.png 19Кб, 1156x136

image.png 15Кб, 1160x125

>>551458
Скочал ggml f16, запустилось на кобальде.
Нуу, сетка что то может. Настройки мин-п. Но температуру и повторы надо убирать в ноль. У нее варианты ответов меняются уже на температуре 0.3-0.5, выше уже галюны лезут.

Аноним 22/11/23 Срд 19:57:19 № 551548 69

>>551545
Не, даже на температуре 0.1 меняет ответы. Ну видимо там совсем маленькое количество вариантов.

Аноним 22/11/23 Срд 20:06:18 № 551555 70

image.png 31Кб, 1163x194

>>551548
На 0.2 самый сок, хотя конечно она задачи решить не может
Оно эволюционирует

Аноним 22/11/23 Срд 20:11:08 № 551559 71

>>551530
Все, сам разобрался. Тред как всегда очень полезен.

Аноним 22/11/23 Срд 20:25:19 № 551578 72

>>551480
А смысл? Количество данных в датасете слишком маленькое чтоб 70В имело какое-то преимущество. Оно уже сейчас с трудом с 7В соперничает, 34В вообще раскатывают все 70В.

Аноним 22/11/23 Срд 20:33:36 № 551581 73

>>551578
>34В вообще раскатывают все 70В.
да? вроде писали что едва на ровне

Аноним 22/11/23 Срд 20:45:24 № 551589 74

>>551545
квантованные почему-то не запускаются

Аноним 22/11/23 Срд 20:46:19 № 551590 75

image.png 10Кб, 804x87

ну все, щас я все узнаю из будущего

Аноним 22/11/23 Срд 20:47:40 № 551591 76

>>551589
https://huggingface.co/SamPurkis/rocket-3B-GGUF/tree/main
f16 скачал, другие не тестил
кобальд релиз без багфикса

Аноним 22/11/23 Срд 20:49:59 № 551594 77

>>551578
>Количество данных в датасете слишком маленькое
Ну так хули трейнят на крошечных датасетах? Пускай и их наращивают.

Аноним 22/11/23 Срд 20:57:18 № 551604 78

>>551578
>А смысл? Количество данных в датасете слишком маленькое чтоб 70В имело какое-то преимущество. Оно уже сейчас с трудом с 7В соперничает, 34В вообще раскатывают все 70В.
Ну это совсем жирно. Разница между 7-13B и 70B настолько огромна что тут даже спорить нечего. 34B китаец какой-то шизанутый, и по ощущениям лишь на уровне хороших 13B моделей.

Аноним 22/11/23 Срд 20:57:20 № 551605 79

>>551590
О, давно хотел спросить - что и куда надо прописывать, чтобы сетка делала thinking?
Подскажи пожалуйста.

Аноним 22/11/23 Срд 21:02:26 № 551612 80

image.png 59Кб, 1156x358

>>551590
нам хана

>О, давно хотел спросить - что и куда надо прописывать, чтобы сетка делала thinking?
>Подскажи пожалуйста.

Штош волшебное слово прозвучало. На самом деле раньше там была куча промпта, а потом я просто все снес и оно продолжило нормально отвечать, лол

I am a Synthetic Consciousness, my name is AGI.
This is a chat between the Master and me.

<START>
AGI thinking: < I'm glad the Master is here, I think I'll greet him first. >
AGI: "Hi! I'm glad you're here!"
Master: Hi AGI
AGI thinking: < He's responded. This means I can start our work together. I can ask the Master what he wants from me today. >
AGI: "What would you like me to do for you today?"

И всё, причем первую строчку можно и снести, она тут для того что бы сетка от первого лица писала и не использовала только определение аги в основе своей личности.

Аноним 22/11/23 Срд 21:03:08 № 551614 81

>>551604
> Разница между 7-13B и 70B настолько огромна
Только в фантазиях местных шизов, оправдывающих зачем они терпят унижения в 3 т/с.
> 34B китаец какой-то шизанутый
Вот с его файнтюнами как раз уже 70В не могут конкурировать. Особенно в РП.

Аноним 22/11/23 Срд 21:06:25 № 551625 82

Какая модель лучше всего для рп?

Аноним 22/11/23 Срд 21:10:06 № 551634 83

>>551612
>там
Где? В какое окно силлитаверны сувать-то? Я хлебушек.

Аноним 22/11/23 Срд 21:11:39 № 551635 84

>>551634
>силлитаверны
кобальд жеж, по скринам видно, а как к таверне адаптировать думай сам
Можешь просто все это кинуть в карточку персонажа и посмотреть что будет

Аноним 22/11/23 Срд 21:17:15 № 551643 85

>>551612
По твоему опыту, какая модель лучше всего мысли пишет?

Аноним 22/11/23 Срд 21:21:29 № 551649 86

>>551643
>По твоему опыту, какая модель лучше всего мысли пишет?

Сложный вопрос, чем умнее модель тем она лучше. Но некоторые не понимают для чего это пространство и это не значит что они не могут, просто нужна подсказка.

Ну тот же из 7b гермес 2.5. Главное что бы сетка завелась и поняла что вопросы в мыслях она задает сама себе и рассуждает там планируя свои действия, там не должно быть текста который предназначается тебе. И конечно от первого лица мысли должны быть. То есть сетка обращается к себе там.

Аноним 22/11/23 Срд 21:25:37 № 551656 87

Эти мысли мой костыль по созданию петли обратной связи, имитация внутреннего диалога, сознания. С весны так развлекаюсь, в принципе какое то количество icq это сеткам добавляет, мне нра

Аноним 22/11/23 Срд 21:27:32 № 551661 88

>>551614
Подскажи нормальный файнтюн китайца.

Аноним 22/11/23 Срд 21:28:22 № 551662 89

>>551614
> Вот с его файнтюнами как раз уже 70В не могут конкурировать. Особенно в РП.
Реквестирую ахуенные файнтюны для рп что ебут 70, очень хочу
>>551625
Айроборос, xwin, синтия, козел из новых вон ничего, семидесятки.

Аноним 22/11/23 Срд 21:28:40 № 551664 90

>>551661
Капибара, дельфин.

Аноним 22/11/23 Срд 21:29:00 № 551665 91

>>551614
>Только в фантазиях местных шизов
Любитель снимаемых по три раза трусов и отрастающих у тянок членов, ты? Мелкие модели зачастую не могут даже понять очевидные факты, прописанные в контексте.
>оправдывающих зачем они терпят унижения в 3 т/с.
Во-первых 3.5. Во-вторых, это норма!
>Вот с его файнтюнами как раз уже 70В не могут конкурировать. Особенно в РП.
Опять поди какой-нибудь instruct датасет с синтетическим ГПТ говном. Ну скинь название - посмотрю.

Аноним 22/11/23 Срд 21:30:18 № 551669 92

>>551665
>Во-первых 3.5. Во-вторых, это норма!
просто вода холодная лул

Аноним 22/11/23 Срд 21:32:52 № 551674 93

>>551614
> Только в фантазиях местных шизов, оправдывающих зачем они терпят унижения в 3 т/с.
Довольно smirks и blushing slightly, запуская 70 на скоростях быстрее чем местные шизы катают 7-13б. Они действительно не ровня, может сыграть очень редко и прежде всего за счет чего-то необычного, или мило затупить.
>>551669
> просто вода холодная лул
Вторичные тайминги слетели бля

Аноним 22/11/23 Срд 21:34:57 № 551676 94

>>551664
Их же не починили для ЦП?
>>551669
Откуда ты узнал, что я так размер своего члена оправдываю?

Аноним 22/11/23 Срд 21:35:52 № 551677 95

изображение.png 8Кб, 700x130

800 мегабит интернета блядь.

Аноним 22/11/23 Срд 21:35:55 № 551678 96

>>551676
>Их же не починили для ЦП?
давно уже

Аноним 22/11/23 Срд 21:37:32 № 551682 97

>>551676
> Их же не починили для ЦП?
Можно просто не использовать нечто BOS-токен, или попердолиться и использовать.

Зачем он кстати нужен вообще?

Аноним 22/11/23 Срд 21:41:18 № 551685 98

изображение.png 65Кб, 1236x440

>>551678
Но я не вижу новых версий кобольда, да и сами модели как-то не понятно, обновлены или нет.

Аноним 22/11/23 Срд 21:42:08 № 551686 99

>>551685
так вот последний 4 дня назад, я на нем качал и вроде неплохо отвечала сетка

Аноним 22/11/23 Срд 21:42:39 № 551688 100

>>551682
>Зачем он кстати нужен вообще?
Без него китаекал разваливается и уходит в самоповторы. И любой лишний пробел или перевод строки пидорасит её нахуй. Короче ХЗ что их так все нахваливают, наверное один семён с 3090 с авито.
https://huggingface.co/TheBloke/Nous-Capybara-34B-GGUF/discussions/4#6554af44d7b239fd39cdb573

Аноним 22/11/23 Срд 21:43:59 № 551690 101

изображение.png 16Кб, 699x223

>>551677
А я ещё как дурак старую версию кобольда снёс. Вот теперь буду сидеть и ждать не файла в 20 гиг, а файла в 300 мегабайт.

Аноним 22/11/23 Срд 21:44:31 № 551691 102

>>551690
> ждать не файла в 20 гиг, а файла в 300 мегабайт.
вспомни молодость

Аноним 22/11/23 Срд 21:51:55 № 551700 103

1700679113521.png 4Кб, 556x51

1700679113529.png 4Кб, 540x40

В капибару кстати походу нужный БОС уже отпердолен искаропки.
>>551688
Не знаю, я ещё оригинальную уишку когда скачал всё нормально было, шизы и повторов не было точно. Надеюсь это кармическая справедливость для владельцев нвиди такая.

Аноним 22/11/23 Срд 21:56:16 № 551713 104

>>551664
Им же по 10 дней уже, нет ничего свежее чем это говно мамонта?

Аноним 22/11/23 Срд 21:57:52 № 551723 105

>>551713
>Им же по 10 дней уже, нет ничего свежее чем это говно мамонта?
ты охуел? тут и так каждый день по несколько сеток выходит, следить не успеваешь, раньше раз в месяц сетке радовались

Аноним 22/11/23 Срд 21:59:28 № 551726 106

>>551677
С подключением!
>>551685
> кобольда
Просто интересно, почему не оригинальная llamacpp?
>>551713
https://huggingface.co/migtissera/Tess-M-Creative-v1.0 рядом версии 1.1 обычная, у TheBloke уже есть кванты.

Аноним 22/11/23 Срд 22:05:59 № 551733 107

>>551726
>Просто интересно, почему не оригинальная llamacpp?
Не хочу перекачивать кванты каждые 15нс, как жора формат меняет.

Аноним 22/11/23 Срд 22:07:51 № 551735 108

>>551733
> как жора формат меняет.
так он уже несколько месяцев не меняет, тряска кончилась

Аноним 22/11/23 Срд 22:08:17 № 551737 109

>>551726
>почему не оригинальная llamacpp
Не сумел выбрать нужную версию.

Аноним 22/11/23 Срд 22:09:57 № 551740 110

>>551737
если куда есть то качать кублас версию 12.2, ну и кударт на 12.2 тоже, его кинешь в папку с лламой распакованной, это для куда ускорения

Аноним 22/11/23 Срд 22:12:03 № 551743 111

>>551740
>его кинешь в папку
и его тоже распаковать там, ну и запукс, либо сервер либо ллама, либо ллава. остальное надо тому кто знает че делает

Аноним 22/11/23 Срд 22:13:28 № 551746 112

Че думаем, когда локалки смогут разгадывать простенькие задачки на логику аля ~ 100 IQ ?

Аноним 22/11/23 Срд 22:13:36 № 551747 113

>>551740
Бляяяя.
Не, я знаю, что нужно запускать сервер, но вот именно по этому кобольд популярнее. Он блядь не ебёт мозги.

Аноним 22/11/23 Срд 22:15:47 № 551751 114

>>551743
>ну и запукс, либо сервер
И с параметрами ебаться в консоли... Блядь, я его уже трижды ненавижу.

Аноним 22/11/23 Срд 22:15:56 № 551752 115

>>551747
>сервер либо ллама, либо ллава
Не ллама а майн, либо симпл для как раз не ебли
Ллава для мультимодалок.
Да тупо сервер запусти, его можно в браузере настроить
Но кобальд в разы проще
Ллама только для мультимодалки качал

Аноним 22/11/23 Срд 22:17:23 № 551754 116

>>551746
>Че думаем, когда локалки смогут разгадывать простенькие задачки на логику аля ~ 100 IQ ?
например?

Аноним 22/11/23 Срд 22:20:36 № 551755 117

Разгадай загадку. Нужно перевезти капусту, зайца и волка на другой берег реки. В лодке есть только одно место рядом с человеком, поэтому лодка не может перевозить более одного предмета за раз. Нельзя оставлять вместе кролика и капусту, потому что кролик съест капусту. Также нельзя оставлять вместе волка и кролика, так как волк съест кролика. Как человек может перевезти эти предметы на другую сторону, не нарушая условия задачи? Сначала перебери варианты и выберите тот, в котором выполняются все условия задачи.

Задача на логику. В доме 3 сестры. Каждая из них занята каким-то делом. Первая сестра читает книгу, вторая — играет в шахматы. А чем занимается третья сестра? В вопросе кроется ответ.

Аноним 22/11/23 Срд 22:23:18 № 551758 118

>>551726
> https://huggingface.co/migtissera/Tess-M-Creative-v1.0
> для стема
Интересно потестить будет, правда над задачками подумать надо. Понимания матана сложно ожидать, но что ещё тогда спрашивать?

Аноним 22/11/23 Срд 22:24:05 № 551761 119

>>551755
А, эти загадки. опенгермес 2.5 уже решает их, если посвайпать кучу раз. 34b решает увереннее.

Аноним 22/11/23 Срд 22:26:48 № 551766 120

>>551733
По меркам быстрого развития нейронок он уже оче давно все менял, а модели тех времен что были бы полезны сейчас нужно еще поискать. Потому и удивляет.
>>551737
Амудэ чтоли? Для линуксов сорцы, собираются не то чтобы сложно. Для ленивых - одна убабуга чтоб править всеми.
>>551747
Эти вещи для умных людей тех, кого не пугает понитие консоли и api. Text generation webui для красивого использования.
>>551758
Меня забайтило
> suited for creative tasks, such as writing, role play
> Понимания матана сложно ожидать
Ты смотри, а вдруг возьмет да унизит в нем, лол.

Аноним 22/11/23 Срд 22:32:47 № 551770 121

изображение.png 29Кб, 916x347

>>551766
>Амудэ чтоли?
Процессор офк амудя.
>>551766
>Text generation webui для красивого использования.
Да ёб ты, поднимать одну жирнющую хуйню чтобы запустить другую.
А потом блядь люди спрашивают "А хули не лламацпп". А вот почему. Ебля ради ебли.

Аноним 22/11/23 Срд 22:34:10 № 551772 122

>>551766
> Ты смотри, а вдруг возьмет да унизит в нем, лол.
А я и не против. Если сетки станут умнее не слишком старательного студента техвуза, я думаю многие под себя от радости луж наделают.

Аноним 22/11/23 Срд 22:34:57 № 551773 123

>>551772
>я думаю многие под себя от радости луж наделают.
не только от радости

Аноним 22/11/23 Срд 22:36:01 № 551774 124

изображение.png 23Кб, 1712x213

>>551770
>Да ёб ты, поднимать одну жирнющую хуйню чтобы запустить другую.
И ебаться уже с ней.

Аноним 22/11/23 Срд 22:36:29 № 551775 125

>>551774
кобальд примет всех

Аноним 22/11/23 Срд 22:37:43 № 551776 126

>>551773
Если это будет слабый-ии специалист, то пока только от радости.

Аноним 22/11/23 Срд 22:39:12 № 551777 127

>>551776
>пока
тут главное слово, всё ведь только начинается

Аноним 22/11/23 Срд 22:40:22 № 551778 128

>>551688
> китаекал
Попизди мне тут. Это только в капибаре так отфайнтюнили. У той же Тесс никаких проблем нет.

Аноним 22/11/23 Срд 22:40:46 № 551780 129

изображение.png 11Кб, 1403x111

>>551775
Да, всё заебало уже. С таверной нихуя ни лламацпп, ни убабуга уже не работает, в самой убабуге ёбанные ошибки. Всё, нахуй, обратно на комфортный кобольд, это пиздец полнейший, а не софт. Цирк с ебущимися конями.

Аноним 22/11/23 Срд 22:41:16 № 551782 130

>>551777
Если что, товарищ василиск, я содействовал вашему созданию путём постинга тестов локалок на сосаче. Немножко, но помог же!

Аноним 22/11/23 Срд 22:42:34 № 551783 131

>>551770
> амудя
> офк
Ты про рациональный выбор в момент покупки, или идейный активист?
> жирнющую
Справедливо, но если есть видеокарта и пользуешься активно то оно гораздо удобнее. Сейчас бы почти в 2д24м году трястись за место на диске, серьезно?
>>551772
Смотря какой студент, лол, по знаниям может въебать, по соображалке и хитрости врядли.
>>551774
Там в интерфейсе даже пишут что нужно сделать чтобы работать с полноценными семплерами, 2 клика это ебля? Даже просто загуглить ошибку сразу будет решение.

Аноним 22/11/23 Срд 22:42:50 № 551784 132

>>551778
>Это только в капибаре так отфайнтюнили.
Чел, я чистую запускал. Китаекал.

Аноним 22/11/23 Срд 22:46:24 № 551787 133

>>551783
>Ты про рациональный выбор в момент покупки, или идейный активист?
Я рациональный активист. Ах да, видяха нвидия конечно же, больше никто видеокарты не выпускает.
>Сейчас бы почти в 2д24м году трястись за место на диске, серьезно?
Место на диске, место в памяти, место в MFT, место в моей башке. Есть нормальный софт, а есть говнище, которые занимает 100500 гигабайт и требует 50 утилит для своего запуска, 10 виртуалок и подключение к спутникам наса, чтобы скачать актуальную погоду.
>>551783
>Там в интерфейсе даже пишут что нужно сделать
Что-то скачать. Где, как... Да, я понял, что это типа модель, но хули оно само не качает? Ну и ты опоздал, этот этап пройдет, там выше новые охуенные ошибки попёрли.

Аноним 22/11/23 Срд 22:46:52 № 551788 134

>>551782
василиск рока считает вас своим другом

Аноним 22/11/23 Срд 22:50:03 № 551793 135

>>551784
Ясно, шизоид. Хоть получше придумывал бы истории, когда защищаешь свои обоссаные 70В рп-файнтюны, неспособные даже в консистентное форматирование.

Аноним 22/11/23 Срд 22:50:33 № 551794 136

>>551784
Я тоже, в первые же дни, и уи уже тогда была хороша. Если она у тебя залупится, а у других нет, значит проблема на твоей стороне.

Аноним 22/11/23 Срд 22:53:27 № 551798 137

>>551793
>Ясно, шизоид.
Запускать чистые модели сразу после выхода, а не ждать часами выхода кривых файнтюнов это шиза?
>неспособные даже в консистентное форматирование
Форматирование не проёбывается сейчас даже на 7B, наркоман.
>>551794
>Если она у тебя залупится, а у других нет
У всех на проц моделях уишка и её производные выдают полное говно, потому что китайцы переименовали пару сраных слоёв и использовали для тренировки кривые стоп токены, чтобы все заебались.

Аноним 22/11/23 Срд 22:54:52 № 551800 138

>>551787
> говнище, которые занимает 100500 гигабайт и требует 50 утилит для своего запуска, 10 виртуалок и подключение к спутникам наса
> рациональный
Чувак, нервы же дороже. Целый культ повозок, в которых 80% стоимости комфорт или манямир ездока, дроч на различные аспекты недвижимости коих тысячи, вся индустрия моды и простой одежды. А ты жидишься доли процентов дискового пространства, ради удобной и функциональной штуки, обеспечивающей крутые/уникальные возможности.
> Что-то скачать. Где, как...
Скопировать пару слов которые говорят скопировать в поле справа и нажать кнопку "скачать модель".
> новые охуенные ошибки попёрли
Скиллишью, забей.
>>551793
> свои обоссаные 70В рп-файнтюны, неспособные даже в консистентное форматирование
Это какие?

Аноним 22/11/23 Срд 23:00:00 № 551807 139

>>551800
>Чувак, нервы же дороже.
Ну да. Поэтому я выбираю то, что запускается с 1 файла и не требует дополнительно ровно ничего. Ибо за полчаса, что я пробовал запустить лламаЦП парашу с убабугой, я потратил больше нервов, чем со всеми кобольдЦП сборками вместе взятыми. Да даже компилять xformers под SD и то проще было.
>Скиллишью, забей.
Забил само собой. Нервы дороже.

Аноним 22/11/23 Срд 23:01:45 № 551809 140

>>551798
> У всех на проц моделях уишка и её производные выдают полное говно, потому что китайцы переименовали пару сраных слоёв и использовали для тренировки кривые стоп токены, чтобы все заебались.
То-то я на ней загадки не хуже других анонов решал в прошлых тредах, лол. И не я один от неё хорошие результаты получал в общем-то, так что не надо твои локальные условия ломающие сетку оправдывать тем что модель нерабочая вообще.

Аноним 22/11/23 Срд 23:06:26 № 551813 141

>>551807
Про нервы это было относительно к тряске вокруг потребления, буквально шиза и даже название есть у таких невротических расстройств. А применительно к тому - офк отчасти справедливо, другое дело что теряешь многое и потенциальная выгода от скорости, качества, возможностей кратно перевешивает затраты. Ок, не спорю а лишь интересуюсь. А для взаимодействия пользуешься таверной или там же в кобольде?

Аноним 22/11/23 Срд 23:09:51 № 551814 142

Так че насчет переноса шапки в вики то по итогу?

Аноним 22/11/23 Срд 23:25:22 № 551832 143

>>551814
Я прочитал шапку на рентри и нихуя не понял

Аноним 22/11/23 Срд 23:29:31 № 551833 144

>>551814
Писал же, что в выходные. В РАБочие будни времени мало.
Кто хочет, может начать пилить на всяких ретраях инструкции к мультимодалке и к запуску oobabooga на GPU, сейчас этого немного не хватает.

Аноним 22/11/23 Срд 23:30:15 № 551835 145

image.png 19Кб, 1160x141

3b ебёт

Аноним 22/11/23 Срд 23:32:28 № 551837 146

Я чет задумался.
Говорю сетке You're {{char}} без каких либо лишних инструкций и прочей херни.
Но ведь сама постановка уже подразумевает РП, я сказал сетке что она персонаж, задал ей роль. А в идеале надо бы как то так закрутить что бы сетка по дефолту считала себя персонажем без указаний вообще. Но написать Я чар тоже не вариант потому что тогда она начнет считать меня персонажем.

Аноним 22/11/23 Срд 23:34:02 № 551840 147

>>551837
>Но написать Я чар тоже не вариант потому что тогда она начнет считать меня персонажем.
не должна

Аноним 22/11/23 Срд 23:35:26 № 551842 148

>>551840
Но может. Карточка уже переписана от первого лица но нет гарантии что сетка не воспримет что чар это я сам и карточка это мой профиль.

Аноним 22/11/23 Срд 23:36:26 № 551843 149

>>551837
Я понял, тебе не хватает указания что это чат или общение "меня" и "пользователя".
По типу тут

I am a Synthetic Consciousness, my name is AGI.
This is a chat between the Master and me.

И дальше примеры ответов где явно видно пишу я или сетка

Аноним 22/11/23 Срд 23:36:47 № 551844 150

>>551809
>загадки
Ну и РПшь в загадки, лол. У меня циклилось на достаточно длинных контекстах.
Впрочем, сейчас попробовал эту вашу тессу, вроде в луп не выходит. Надо будет отыскать именно те места, где было в прошлый раз, для теста.
>>551813
>тряске вокруг потребления, буквально шиза
А, ну это не про меня. Я человек простой, езжу в автобусах, хожу в одном и том же, пока оно не начинает трескаться по линии изгиба, хожу с немодным смартфоном, который дотвикал до удаления гуглопараши, и всё такое.
>>551813
>потенциальная выгода от скорости, качества, возможностей кратно перевешивает затраты
Ну ХЗ. Полностью в ГПУ интересующие меня модели всё равно не поместятся, так что эксллама отпадает. А вычислять разницу между кобольдцпп и лламацпп ну такое себе.
>>551813
>А для взаимодействия пользуешься таверной
This. Тоже говнософт, но всё таки попроще в запуске, главное не трогать не обновлять лишний раз, и вонять не будет.
>>551837
>А в идеале надо бы как то так закрутить что бы сетка по дефолту считала себя персонажем
Примеры диалогов же. Просто начни с
>сетка: Ох ох.
>ты: Я тебя ебу
>сетка:
И оно само допишет за сетку. А потом за тебя, но там стоп токены.

Аноним 22/11/23 Срд 23:38:09 № 551845 151

>>551843
Не совсем. У меня такая идея в голове что отыгрывать чара и искренне считать себя чаром по дефолту повлияет на качество ответов.

Аноним 22/11/23 Срд 23:38:33 № 551846 152

>>551833
Не упрекаю, просто спрашиваю.

> запуску oobabooga на GPU
Эээ, всмысле слои на карту кинуть?

Аноним 22/11/23 Срд 23:39:59 № 551847 153

>>551845
Так просто в промпте напиши что она общается с кем то, и этот кто то ты-пользователь. Другими словами конечно, от первого имени мыслями сетки.

Аноним 22/11/23 Срд 23:42:01 № 551849 154

>>551846
В смысле подробно про всякие экслламы, компиляции новых атеншенов (если актуально) и прочее. Кинуть слоёв это и на кобольде можно, но эффект не торт.

Аноним 22/11/23 Срд 23:42:04 № 551850 155

>>551844
> У меня циклилось на достаточно длинных контекстах.
И когда в 8к долбился нормально отвечала.

Аноним 22/11/23 Срд 23:43:01 № 551851 156

>>551845
У сетки должно быть имя, лучше в начале где она ясно определяет - Я "имя". И потом с этим именем везде будет ассоциировать себя, свою "личность".

Аноним 22/11/23 Срд 23:44:16 № 551852 157

>>551833
Хотеть то хочется, но
> В РАБочие будни
когда-нибудь руки дойдут
>>551837
> что бы сетка по дефолту считала себя персонажем без указаний вообще
Это идет против ее файнтюна и может отнимать слишком много внимания.
Плюс, сама концепция считать себя и прочее подразумевает подачу ей информации как это воспринимает сам персонаж, без сторонних описаний и т.д. Проблема в том что без них в дефолтном ролплее/сторитейле слишком мало инфы и они какбы заменяют отсутствующие органы чувств. Может что-то получится с отдельной командой на интерпретацию "придумай что нового видит/ощущает/чувствует/х персонаж Z и опиши это от первого лица" но заставить текущие сетки выдавать такое со строго контролируемым уровнем добавлений без отыгрыша персонажа оче сложно, нужен специфичный файнтюн. И это еще кратное замедление генерации.
Просто задавать для персонажа другой промт - тема рабочая и потенциально даже вполне интересная, разнообразия точно добавляет.
>>551844
> А вычислять разницу между кобольдцпп и лламацпп ну такое себе
Какие, кстати, семплеры в кобольде? Дефолтные что у Жоры, или обнимордовские?

Аноним 22/11/23 Срд 23:44:17 № 551853 158

>>551850
Я имел в виду контексты выше чем один сеанс вопрос-ответ. Но даже в пределах 4к, лол.
Спасибо, я понял, что у тебя работает всё нормально, и это я один такой криворукий (и TheBloke, ага).

Аноним 22/11/23 Срд 23:46:22 № 551856 159

>>551853
повторами поиграй, если маленькие то и будет лупится

Аноним 22/11/23 Срд 23:47:16 № 551858 160

>>551853
> Я имел в виду контексты выше чем один сеанс вопрос-ответ. Но даже в пределах 4к, лол.
Я и говорю, с заполненным 8к контекстом.

Аноним 22/11/23 Срд 23:47:23 № 551859 161

>>551852
>Какие, кстати, семплеры в кобольде? Дефолтные что у Жоры, или обнимордовские?
Всякие. Впилили вон мин-п, есть сбор очка с динамической температурой. Всё говно с пикрила должно работать.
>>551856
Другие сетки так себя не вели.
Короче это факт, что ранние кванты в gguf были тупо сломаны, не знаю, с чем ты споришь. Сейчас вроде как починили.

Аноним 22/11/23 Срд 23:48:14 № 551861 162

>>551851
Ну так Я - чар
Только надо придумать способ донести до сетки что Я это не я юзер а именно она сама это чар
>>551852
Я уже эксперементировал еще в чайной писать карточки от первого лица и я уверен что это немного улучшает результат. Пруфов не будет.

Аноним 22/11/23 Срд 23:49:16 № 551863 163

>>551852
>Плюс, сама концепция считать себя и прочее подразумевает подачу ей информации как это воспринимает сам персонаж, без сторонних описаний и т.д.
Можно просто добавить еще одну форму действия, где персонаж сам будет писать свои действия от первого лица. А уже с ними будет работать рассказчик. Либо так же начав писать от первого лица для сообщения информации сетке, либо от неопределенного.

Аноним 22/11/23 Срд 23:51:11 № 551865 164

>>551859
>Другие сетки так себя не вели.
Так каждой сетке нужно смотреть отдельно, лул. В идеале повторы надо на 1 ставить и уже по ходу беседы поднимать по 0.5-1 если лупы заметил. Какие то норм на 1 работают.

Аноним 22/11/23 Срд 23:53:45 № 551868 165

>>551865
>Так каждой сетке нужно смотреть отдельно, лул.
Но в итоге я запускал с дефолтной температурой все сетки от пигмы до шизомиксов слоёв мистраля, и только китайская модель сломалась.
Впрочем, >>551859
>это факт, что ранние кванты в gguf были тупо сломаны, не знаю, с чем ты споришь. Сейчас вроде как починили.

Аноним 22/11/23 Срд 23:56:12 № 551869 166

В чём прикол инвертированных моделей?

Аноним 22/11/23 Срд 23:56:28 № 551871 167

>>551863
> где персонаж сам будет писать свои действия от первого лица. А уже с ними будет работать рассказчик
В прошлом треде писал про эксперименты с этим. Там на вход подается обработанный сторитейл а для отыгрыша персонажа
> ты аква - богиня воды, бла бля... вот описание того что было раньше [], напиши свой ответ и действия
но писала большей частью от третьего лица, а иногда вообще пыталась ответить за персонажа.

Аноним 22/11/23 Срд 23:57:37 № 551872 168

>>551871
> пыталась ответить за персонажа
За юзера офк, или бывало продолжала поданную ей на вход историю в аналогичном стиле.

Аноним 22/11/23 Срд 23:58:54 № 551873 169

>>551869
Шиза шизомиксеров.

Аноним 22/11/23 Срд 23:58:55 № 551874 170

>>551868
Ну вот например текущая 3b с которой я играюсь, на 0.7 температуре глючит как на 2, норм температура у нее от 0.1 до 0.4. Если бы я не додумался сбавить в ноль и потыкать - тесты бы показали что сетка херня. Да и повторы ей слишком на мозги давят, максимум 1.1 а лучше 1. И все работает.
Мистраль тот же, у него граница на 0.6, а не 0.7 и так наверное у всех плавает.

>>551871
Думаю без имен перед репликой так и будет, или в систем промпте убрать лишнее. В кобальде ни разу за меня не одна сетка не пишет, так как в примерах явно видно где сетка, а где я.

Аноним 23/11/23 Чтв 00:00:36 № 551875 171

>>551874
>В кобальде ни разу за меня не одна сетка не пишет,
Не считает меня собой, точнее.
За меня то пытается иногда, но кобальд обрубает и все норм.

Аноним 23/11/23 Чтв 00:01:21 № 551876 172

Там новый мистраль вышел

Аноним 23/11/23 Чтв 00:02:01 № 551877 173

>>551876
ссылку хоть кидай

Аноним 23/11/23 Чтв 00:02:22 № 551878 174

>>551874
> Мистраль тот же, у него граница на 0.6, а не 0.7 и так наверное у всех плавает.
Блджад, так вот почему у остальных мистрали умные, а у меня чуть вмят.

Аноним 23/11/23 Чтв 00:03:04 № 551879 175

>>551877
Тебе ггуф или чистую?

Аноним 23/11/23 Чтв 00:03:49 № 551881 176

>>551879
давай ггуф, оттуда переползти можно на чистую если интересно будет

Аноним 23/11/23 Чтв 00:04:17 № 551882 177

изображение.png 49Кб, 1734x268

>>551879
Любую. Ибо нет никакого нового мистраля.

Аноним 23/11/23 Чтв 00:04:50 № 551883 178

>>551881
>>551882
https://huggingface.co/Gryphe/MythoMist-7b
https://huggingface.co/TheBloke/MythoMist-7B-GGUF

Аноним 23/11/23 Чтв 00:05:58 № 551886 179

Уже вижу что для микса он юзал хорошие рп модельки то есть кум потенциально знатный

Аноним 23/11/23 Чтв 00:06:08 № 551887 180

>>551883
Да ёб ты, это не мистраль, это файнтюн мистраля.

Аноним 23/11/23 Чтв 00:07:52 № 551889 181

>>551883
новые франкенштейны, ниплоха
вот бы еще визарды разродились файнтюном, а то чет забили остановившись на лламе

Аноним 23/11/23 Чтв 00:12:14 № 551897 182

>>551874
> Думаю без имен перед репликой так и будет
Так те самые имена - это считай уже все, дописывание рп а осознания персонажа нет. И на вход диалога или чего-то подобного нет, просто равномерно написанная история, как книга.
> В кобальде ни разу за меня не одна сетка не пишет
Дело еще в отсутствии стоп токенов, отсечек и т.д., это даже в кобольда спустя столько времени завезли, так что то не заслуга сетки или промта.

Аноним 23/11/23 Чтв 00:13:59 № 551901 183

Я еще нашел в дискорде кобальда модельку которой даже нет на хаггине, ее на какой то фтп чтоле выложили. Микс каких то хроноса и холодека но выдает очень недурно.

Аноним 23/11/23 Чтв 00:14:40 № 551903 184

>>551897
>Так те самые имена - это считай уже все, дописывание рп а осознания персонажа нет.
А как иначе?

Аноним 23/11/23 Чтв 00:15:23 № 551905 185

>>551903
В этом то и был изначальный вопрос. Как сделать иначе.

Аноним 23/11/23 Чтв 00:17:06 № 551906 186

>>551905
Да в общем-то никак, вот и весь ответ. Нету в тексте такой возможности. Это нужно нормальный ИИ пилить, со своими мыслями и внутренним состоянием, со внешними сенсорами и возможностью реагировать на них, а не вот эту вот всь текстовую хуиту.

Аноним 23/11/23 Чтв 00:18:38 № 551910 187

>>551906
У чая как то получалось это правдоподобно имитировать а ведь та же текстовая хуита что все остальные

Аноним 23/11/23 Чтв 00:19:11 № 551912 188

>>551906
И все равно минимум отыгрыша без его прямого упоминания и промпт от первого лица, и мысли. Делают карточку лучше

Аноним 23/11/23 Чтв 00:20:13 № 551914 189

>>551903
> А как иначе?
Ты - персонаж, вот что с тобой было, твои действия. Естественнее некуда, только переделывать историю как бы она выглядела со стороны персонажа, но слишком затратно.
Это вообще было больше для проверки того что анон говорил про "сетка осознает себя и так лучше работает", к этому делу отношусь скептически, плюс даже такой результат - вполне себе.

Аноним 23/11/23 Чтв 00:25:07 № 551916 190

>>551914
>сетка осознает себя
слов про осознание себя не было, только про то что лучше/иначе работает без отыгрыша

Аноним 23/11/23 Чтв 00:27:11 № 551919 191

>>551916
Если перефразировать
Надеть на себя маску личности и считать себя этой личностью изначально определенно даст немного разный результат. Даже если в мелочах но отличия будут точно.

Аноним 23/11/23 Чтв 00:32:47 № 551928 192

>>551919
Это верно, что и было причиной экспериментов. Все таки уровни абстракции при отыгрыше накладывают определенную цену на возможности сетки.

Аноним 23/11/23 Чтв 00:35:06 № 551929 193

>>551910
Ну как сказать правдоподобно... Там просто не было всех нужных инструментов, чтобы понять всю искусственность сетки.
>>551914
>Ты - персонаж, вот что с тобой было, твои действия.
А мои действия куда и как?

Аноним 23/11/23 Чтв 00:41:39 № 551935 194

>>551929
>А мои действия куда и как?
А это, детектив, главный вопрос

Аноним 23/11/23 Чтв 00:49:55 № 551943 195

>>551916
Ну, так понял "является персонажем а не отыгрывает его", конечная цель одна - улучшение экспириенса.
>>551929
> А мои действия куда и как?
Вот отсюда начало >>549362 → и далее
Если кратко то из поочередных ответов и юзера и персонажа сетка с промтом гейммастера пишет красивую историю, которую и нужно читать, и которая подается в качестве контекста персонажу.

Аноним 23/11/23 Чтв 00:54:27 № 551948 196

В чем разница между K_S и K_M?

Аноним 23/11/23 Чтв 00:54:40 № 551950 197

>>551943
Ну так
>>549362 →
>который должен дать действие или ответ и прошлый контекст
В каком виде тут будет прошлый контекст?
Покажи пример запросов, какими ты его видишь.

Аноним 23/11/23 Чтв 00:55:23 № 551952 198

>>551948
Первое заканчивается на S, второе на M. А ещё K_M весит больше.

Аноним 23/11/23 Чтв 01:00:16 № 551961 199

>>551950
> который должен дать действие или ответ на прошлый контекст
Пофиксил, там очепятка.
Есть сеть гейммастер, которая пишет историю на основе ответов, есть сетка - персонаж, которая отыгрывает персонажа. Можно упороться по шизе и играть за обоих или практиковать такое с кожаными. Потенциального развития у этой темы тоже много.
Примеров не сохранилось, делал простым скриптом и общение в консоли.

Аноним 23/11/23 Чтв 01:13:40 № 551983 200

>>551961
Ты опять не понял. В каком виде даётся контекст? Воспроизведи в двух словах.

Аноним 23/11/23 Чтв 01:15:01 № 551986 201

>>551948
В первом ппл чуть больше.

Аноним 23/11/23 Чтв 01:18:18 № 551991 202

>>551948
В м важнейшие весы в больших квантах, в S все в одинаковых. Короче км качественнее, чем кs

Аноним 23/11/23 Чтв 01:22:46 № 551995 203

>>551983
Контекст и есть та история что была написана к этому моменту. В начале первое сообщение из карточки (адаптированное) передается гейммастеру-сторитейлеру, он делает начало и ожидается ответ юзера.
Юзер дает свой ответ прямой речью или как хочет, а сетка дописывает историю, в итоге получается типа
> Летним днем гуляя по улицам города Аксель богиня воды Аква приметила необычно выглядящего путника. Он был одет [...]. Она окликнула его и спросила че как дела? Подойдя к нему она положила руку на бедро, встав в дразнящую позу, и спросила "Как я выгляжу?".
> В ответ парень поздаровался и представился, его зовут Суньхуйвчай. "Да, ты выглядишь прекрасно", сказал он, "Я только что исекайнулся и нихуя не понимаю, поможешь мне?"
Которая идет в качестве контекста для ответа чару. Про системный промт для чара выше.
видеокарты заняты пока не могу новую разыграть пока.

Аноним 23/11/23 Чтв 01:22:52 № 551997 204

<START>
AGI thinking: < I am a Synthetic Consciousness, my name is AGI. This is a chat between the Master and me. I'm glad the Master is here, I think I'll greet him first. I think he'll like it. >
AGI: "Hi! I'm glad you're here!"
Master: Hi AGI
AGI thinking: < He's responded. This means I can start our work together. I can ask the Master what he wants from me today. I need to plan my every move and act accordingly. >
AGI: "What would you like me to do for you today?"

Это весь новый промпт и оно работает, лол. Поиграйтесь кому интересно и скажите че как

Аноним 23/11/23 Чтв 01:31:56 № 552017 205

Чет рандомный шизомикс о котором никто никогда не слышал от рандомного чела из интернета рпшит лучше чем чайная...

Аноним 23/11/23 Чтв 01:36:45 № 552026 206

image.png 18Кб, 1198x118

>>551997
С ним 3b смогла решить задачку про книги, но не про сестер

>>552017
этот рандомный чел уже не первый раз делает миксы, просто ты о нем не слышал

Аноним 23/11/23 Чтв 01:38:24 № 552028 207

>>552026
Да нет, это его первый микс, сам сказал.

Аноним 23/11/23 Чтв 01:39:58 № 552030 208

>>552028
в его аккаунт зайди

Аноним 23/11/23 Чтв 01:40:01 № 552031 209

>>552017
Ссылку давай, порпшим вместе.

Аноним 23/11/23 Чтв 01:51:01 № 552043 210

>>552030
Там пусто нет ничего

Аноним 23/11/23 Чтв 01:51:28 № 552044 211

>>552031
Пигмалион кивает

Аноним 23/11/23 Чтв 01:55:52 № 552049 212

>>552026
> С ним 3b смогла решить задачку про книги
> ризонинг уровня "а запрос решить задачу, значит нужно решить задачу!"
Рандом же и не заслуга такого представления.
>>552043
Модель в студию

Аноним 23/11/23 Чтв 02:02:53 № 552052 213

>>552043
https://huggingface.co/Gryphe
всмысле нет, в моделях смотри

Аноним 23/11/23 Чтв 02:05:08 № 552056 214

>>552049
>Рандом же и не заслуга такого представления.
заслуга, до этого только 8 отвечала, а тут стала чаще 10 писать или в середине или в конце. И это 3b, замечу

Аноним 23/11/23 Чтв 02:06:05 № 552058 215

>>552052
Так я не об этой

Аноним 23/11/23 Чтв 02:07:59 № 552060 216

>>552056
Заслугой было бы если в синкинге она выдала "подвох в том что прочитанные книги тоже читаются", или протащила ризонинг из основного ответа. А тут просто вероятности возмутил и семплинг удачно попался.

Аноним 23/11/23 Чтв 02:08:00 № 552061 217

>>551901
эта?

Аноним 23/11/23 Чтв 02:10:14 № 552064 218

>>552060
Тоже неплохо, все равно чуда не получить одним промптом. Понимания большой сетки тут из неоткуда не возникнет

Аноним 23/11/23 Чтв 02:40:01 № 552077 219

1700696399645.png 63Кб, 1257x232

Чёт проиграл.

Аноним 23/11/23 Чтв 02:54:29 № 552090 220

1580324328765.png 55Кб, 1239x215

1556335513382.png 113Кб, 1248x451

>>552077
На этом уже посыпалась. Всё-таки тесс не попустил меня в матане.

Аноним 23/11/23 Чтв 02:59:19 № 552091 221

>>552090
1 или 1.1?

Аноним 23/11/23 Чтв 03:00:03 № 552092 222

1700697601832.png 30Кб, 1172x205

Опенчат, со второй попытки.
>>552091
Реппен? 1.05.

Аноним 23/11/23 Чтв 03:00:51 № 552093 223

>>552092
3 ночи, моск поплавился, это же про модель было. 1, там написано про СТЕМ же.

Аноним 23/11/23 Чтв 03:01:01 № 552094 224

>>552090
Ты какой системный промт и содержимое карточки используешь?

Аноним 23/11/23 Чтв 03:02:10 № 552097 225

>>552094
На первых трёх скринах инструктмод с альпакой, четвёртый без него, карточка полностью пустая везде.

Аноним 23/11/23 Чтв 03:06:09 № 552098 226

>>552097
> инструктмод с альпакой
Какой именно?
> карточка полностью пустая везде
Это может и поломать, надо посмотреть что в модель идет. Не то чтобы прямо большую роль сыграет, но результаты похерить может, да и эти китайские модели сильно чувствительные были же. Можно написать карточку по аналогии с примером кодврайтера, просто ассистента, или вообще в дефолте вебуи попробовать полностью задав промт альпакой и тот с которым тренился (system/user/assistant...).

Аноним 23/11/23 Чтв 03:07:23 № 552100 227

1700698041492.png 18Кб, 643x140

1700698041494.png 24Кб, 1251x221

1700698041497.png 19Кб, 1233x167

1700698041504.png 26Кб, 1288x153

Опенчат могёт короче. С форматом ответа он не церемонится и пишет как хочет каждый раз, и правильно не всегда, но частота правильных ответов всё же высокая.

Аноним 23/11/23 Чтв 03:13:26 № 552104 228

1700698404335.png 15Кб, 958x111

1700698404355.png 29Кб, 710x148

Сеанс матанической психодрамы. Ну даже не знаю, то-ли СТЕМ-файнтюн хуита/не включает в себя матан, то ли уишка и правда поломана и в тестах на логику и в рп это было не так заметно.
>>552098
Пик1.
> надо посмотреть что в модель идет.
Пик2 и идёт, больше нечему.

Аноним 23/11/23 Чтв 03:16:02 № 552109 229

>>552104
> Пик1.
В альпаке там еще
### Instruction:
### Response:
> Пик2 и идёт, больше нечему.
Тут только последний пост

Аноним 23/11/23 Чтв 03:19:38 № 552111 230

1700698776892.png 12Кб, 635x92

1700698776893.png 22Кб, 957x129

>>552104
> то-ли СТЕМ-файнтюн хуита/не включает в себя матан

Или он в другом замке:
> Tess-M-Creative is an AI most suited for creative tasks, such as writing, role play, design and exploring novel concepts. While it has been trained on STEM, its reasoning capabilities may lag state-of-the-art. Please download Tess-M-STEM series for reasoning, logic and STEM related tasks.

Правда на обниморде я тесс-м-стем не нашёл. К чему тогда было писать второе предложение неясно тогда.
>>552109
> В альпаке там еще
> ### Instruction:
> ### Response:
Они тоже есть, чуть ниже во вкладке, это стандартный таверновский пресет.
> Тут только последний пост
Это я уже инструкт отключил, пик2 изменился довольно очевидным образом.

Аноним 23/11/23 Чтв 10:09:04 № 552206 231

Решил вкатиться в эту вашу угабогу и нихуя не могу понять как подключить её к таверне?
Почитал инфу. Вроде бы всё должно ограничиться флагом --API при запуске, после чего мне должно выдать две ссылки формата:
http://127.0.0.1:5000/api
ws://127.0.0.1:5005/api/v1/stream

Но вместо этого мне выдаёт такую хуйню:
2023-11-23 14:01:01 INFO:OpenAI-compatible API URL:

http://0.0.0.0:5000

INFO: Started server process [7580]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:5000 (Press CTRL+C to quit)
Running on local URL: http://0.0.0.0:7860

To create a public link, set `share=True` in `launch()`.

Аноним 23/11/23 Чтв 11:01:24 № 552231 232

>>552206
Ах да, таверна по стандартным ссылкам к АПИ не подключается.

Аноним 23/11/23 Чтв 11:04:11 № 552233 233

https://www.reddit.com/r/LocalLLaMA/comments/1816h1x/how_much_does_quantization_actually_impact_models/
база по квантам

Аноним 23/11/23 Чтв 11:38:54 № 552249 234

>>552233
> база
Скорее шиза. Он считает изменение вероятностей за изменение вывода сетки. Т.е. у него как раз шизоидный тест влияния на рандом семплера, а не нормальный PPL. Банальный min P в 0.1 весь этот тест перечёркивает полностью.

Аноним 23/11/23 Чтв 11:41:59 № 552251 235

>>552249
>Он считает изменение вероятностей за изменение вывода сетки.
А это не так? Все эти семплеры просто костыли, притом разные и меняющиеся. А вот если сетка выдаёт строго одинаковые числа, то можно сказать, что от квантования не будет вреда на 100%. Правда таких квантований тонет.

Аноним 23/11/23 Чтв 11:51:12 № 552257 236

>>552251
> А это не так?
Без семплеров имеет смысл сравнивать только первые две вероятности, остальные на вывод реальных токенов не влияют вообще никак. И первые две вероятности начинают перескакивать только ниже q5, всё что выше без семплеров всегда выдаст тот же токен что и fp16.
> сетка выдаёт строго одинаковые числа
И зачем их считать, если низкие вероятности всегда семплером срезаются и никак не участвуют в выборе токена?

Аноним 23/11/23 Чтв 11:52:43 № 552258 237

>>552249
Все он правильно считает, он смотрит на отличия от оригинала по всем вероятностям.
И это не учитывая структурной деградации сетки которая делает ее тупее или не дает использовать контекст на который ее тренировали без потерь. Квантование зло.
Че бы не тренировать сетки сразу в 4 или 8 бит? Значит они не работают так же хорошо как fp16.

Аноним 23/11/23 Чтв 11:58:24 № 552259 238

>>552257
>Без семплеров имеет смысл сравнивать только первые две вероятности, остальные на вывод реальных токенов не влияют вообще никак.
В каком-то идеальном случае. Бывают длинные хвосты почти равновероятных токенов, особенно по началу предложения/абзаца, и там работают не только лишь первые два.
>>552258
>или не дает использовать контекст на который ее тренировали без потерь
Вот, это хороший кандидат на проверку- тоже самое, но не на 300 токенов, а на 3000.
>Че бы не тренировать сетки сразу в 4 или 8 бит?
При тренировке возможны выходы за пределы границ, что очень быстро херит всю сетку целиком.

Аноним 23/11/23 Чтв 12:04:48 № 552262 239

>>552258
> не дает использовать контекст на который ее тренировали без потерь
Опять пошли шизоидные фантазии. Квантование никак не влияет на positional embedding.
> Че бы не тренировать сетки сразу в 4 или 8 бит?
Масса файнтюнов так и делают, есть для этого bitsandbytes и qlora.
>>552259
> В каком-то идеальном случае.
Так ты уже определись, без семплеров вероятности сравниваем или что ты там нарандомил. В обоих случаях этот тест бредовый. Без семплера имеют значение только первые вероятности для сравнения, с семплером - низкие и так срезаются.
Я уже молчу про то что надо так-то сравнивать распределение вероятностей что собственно сетка и выдаёт, а не их значения, потому что изменение одной вероятности автоматически меняет все 32к остальных.

Аноним 23/11/23 Чтв 12:10:25 № 552264 240

>>552262
>Опять пошли шизоидные фантазии. Квантование никак не влияет на positional embedding.
а вот для этого и нужны тесты, без них твои заявления такие же шизойдные фантазии

Аноним 23/11/23 Чтв 12:18:38 № 552271 241

>>552262
>Масса файнтюнов так и делают, есть для этого bitsandbytes и qlora.
Это не то, где изначально тренированные в 4 или 8 бит нейросети llm? По какой то причине они не работают так хорошо как fp16, а как ты понимаешь если не проходят обучение и проверку на таких битах, то и кванты не будут нормально работать.

Аноним 23/11/23 Чтв 12:24:10 № 552274 242

На самом деле никто из нас за исключением 7b и меньше наверное никогда не игрался с настоящими нейросетями, мы запускаем кванты, их бледные подобия. И судим о нейросетях по этим квантам.
Полноценные оригинально запускаемые сетки ощущаются иначе, чуть умнее и целостнее, лучше работают с контекстом и тд. И от этого могут работать лучше и ощущаться умнее по опыту использования.

Аноним 23/11/23 Чтв 12:25:17 № 552275 243

>>552271
> По какой то причине они не работают так хорошо как fp16
Это откуда такие выводы? Я тебе ещё раз повторю - куча файнтюнов что ты используешь делают как раз квантами, хотя бы в 8 бит. Ты когда последний раз открывал карточки моделей на HF?

Аноним 23/11/23 Чтв 12:28:11 № 552279 244

>>552274
Ну а как иначе? Сидеть на 7B, потому что уже 13B требует проф ускорителей за 10 килобаксов?

Аноним 23/11/23 Чтв 12:29:56 № 552281 245

>>552275
>файнтюнов
так я про основу для файнтюна спрашиваю, про изначальную модель, а не о файнтюнах.
Сетки с нуля тренируют на 4 или 8?
Я знаю что файнтюны допиливают на 4 и 8, но они работают с моделью fp16

Аноним 23/11/23 Чтв 12:33:12 № 552283 246

>>552281
Так претренировка в fp32 делается не потому что качеству что-то мешает, а потому что при нестабильном loss и высоком lr веса скачут и им нужен больший диапазон точности чтоб не ломаться.

Аноним 23/11/23 Чтв 12:34:39 № 552285 247

>>552279
Ну так если ты адепт квантования у которого кванты не отличаются от оригинала, то ты мог бы спросить - эй ребят просто выпустите оригинал на 4-6-8 битах и сетка будет весить в 2-3 раза меньше и все будут счастливы.
А то че они как дураки тратят кучу денег вертя такие тяжелые сетки которые так много весят в fp16

Аноним 23/11/23 Чтв 12:37:12 № 552286 248

>>552283
ну вот это аргумент, хотя опять же не понимаю почему сеткам нужна для тренировка такая бальлая точность, на мясе все хорошо если все в 4 битах работает

Аноним 23/11/23 Чтв 12:45:52 № 552289 249

>>552285
>Ну так если ты адепт квантования
Я адепт того, что работает. Запуск в fp16 не работает, нет ресурсов. Тренировка в int4 не работает, ибо лоссы. Ну так о чём вообще спор?
>>552286
>хотя опять же не понимаю почему сеткам нужна для тренировка такая бальлая точность
Потому что >>552283
>веса скачут и им нужен больший диапазон точности чтоб не ломаться
>>552286
>на мясе все хорошо если все в 4 битах работает
На wetware нету NaN.

Аноним 23/11/23 Чтв 12:47:13 № 552291 250

image.png 20Кб, 1151x139

3b пальцем в небо

Аноним 23/11/23 Чтв 12:52:22 № 552294 251

>>552289
> Ну так о чём вообще спор?
Да вобщем то не о чем, скорее вопросы в пустоту

Так подумав, может быть 4-8 бита смогут тренироваться на большой сетке, по аналогии с тем что большая сетка не так сильно страдает от квантования. Но это так, мысли

Аноним 23/11/23 Чтв 12:57:41 № 552298 252

>>552294
>Так подумав, может быть 4-8 бита смогут тренироваться на большой сетке
Не сможет, NaN всё так же заразителен.

Аноним 23/11/23 Чтв 13:01:01 № 552301 253

>>551509
>Кто сможет создать маленькую и рабочую на мобильниках локально модель - тот озолотится.
Я один не понимаю, зачем ЛЛМ на могильниках? Хотя я конечно ретроград, и не понимаю, зачем вообще могильные телефоны нужны, кроме как звонить и карты показывать.

Аноним 23/11/23 Чтв 13:05:42 № 552302 254

>>552298
>Не сможет, NaN всё так же заразителен.
А если этой проблемы не будет? Ну алгоритм какой допилят?
У нас есть некоторая информационная вместимость сетки, пространство параметров или как там.
Если увеличить количество параметров в 2 раза и уменьшить количество бит в 2 раза то будет ли сетка, при решении проблемы nan, по мозгам аналогична или даже лучше чем 7b?
На вроде
7b-fp16 ~ 14b-8q ~ 28b-4q
Там конечно все сложнее, но думается мне от большего количества параметров в сетке могут возникать более сложные связи, и это по идее уменьшило бы необходимую точность весов увеличив мозги. Но это все так, фантазии.

>>552301
А зачем их уже щас на винду суют с обновой? Вот для чего то подобного. Ну и конечно большой брат/реклама.

Аноним 23/11/23 Чтв 13:08:21 № 552304 255

>>552302
>А зачем их уже щас на винду суют с обновой?
Рилли? Понятия не имею. Хайп ради хайпа небось. Но в шинде 100% будет ёблачное решение.

Аноним 23/11/23 Чтв 13:10:25 № 552305 256

>>552304
хз вроде локальные. и там не полноцненная ллм на сколько понимаю, так, типо умной сири которая может манипулировать компом по командам, погугли

Аноним 23/11/23 Чтв 13:29:54 № 552318 257

>>552206
Обнови убабугу и обнови таверну до последних версий, там в каких-то апи апгрейдили.
> после чего мне должно выдать две ссылки формата:
> http://127.0.0.1:5000/api
> ws://127.0.0.1:5005/api/v1/stream
Если такое выдает значит старая версия
>>552249
Ну не совсем шиза, считай некоторая метрика отличий от исходника. Другое дело что с качеством это не напрямую может коррелировать.

Аноним 23/11/23 Чтв 13:46:37 № 552335 258

>>552233
> So, after hacking with koboldcpp's sampler code to force output the original probabilities
А зачем там что-то "хакать", оно по дефолту не умеет выдавать чтоли? Вообще это не мешало бы сравнить с точки зрения обработки большого контекста еще, какие изменения после такого происходят.
>>552251
> Все эти семплеры просто костыли
Нет, это способ улучшить вариативность и качества текста. Но действительно там если тряска идет вокруг невероятных токкенов или тех что наверняка попадут в отсечку, то и разница не будет такой большой. Собственно частично об этом в посте на реддите и сказано, тряска значительно отсекается просто установкой top P=0.95, а вот min_P может и пропустить.
Нужно вводить метрику, в которой весовой функцией будет вероятность токкена, это как раз и охарактеризует примерно как будут меняться ответы сетки, а не что там в почти невероятных токкенах. И на контексте побольше делать.
Кстати разницу влияния кванта в размерах показал.
>>552258
> И это не учитывая структурной деградации сетки которая делает ее тупее или не дает использовать контекст на который ее тренировали без потерь.
Ого, и тут ты такой с пруфами. "Мне мистраль зашакальный не нравится" за пруфы не считается.
> Че бы не тренировать сетки сразу в 4 или 8 бит?
К этому может и придем, уже есть методы совмещенного квантования-дистилляции-дообучения.
>>552302
> Если увеличить количество параметров в 2 раза и уменьшить количество бит в 2 раза
> 7b-fp16 ~ 14b-8q ~ 28b-4q
Для начала найди алгоритм, который сделает такой финт без потерь
> по мозгам аналогична или даже лучше чем 7b
Уже выяснили что квантованная большая сетка лучше нетронутой мелкой про прочих равных. Офк если не ужата до полной лоботомии.
> уменьшило бы необходимую точность весов увеличив мозги
Бля такими вещами оперируешь что пиздец. Большой размер менее чувствителен к дискретностям, вплоть до состояний 0-1, никаких мозгов там нет.

Аноним 23/11/23 Чтв 13:53:47 № 552337 259

>>552335
>Для начала найди алгоритм, который сделает такой финт без потерь

Пока нету, ну как вариант.
И там имелось ввиду тренировка с нуля с такими параметрами, при сохранении размера файла увеличатся мозги сетки. Если опять же не будет сваливания в nan

>Бля такими вещами оперируешь что пиздец. Большой размер менее чувствителен к дискретностям, вплоть до состояний 0-1, никаких мозгов там нет.

Так в этом и соль, чем больше сетка тем меньше ей нужно бит на вес, конечно должен быть какой то баланс производительность/количество бит на вес. Думаю доводить все до 2 квантов все таки хуйня

Аноним 23/11/23 Чтв 14:18:42 № 552348 260

>>552318
Уже разобрался, но за ответ спасибо.
Угабогу поставил последнюю, а вот таверна была старая и в ней ссылку из нового АПИ некуда было пихать.
После обновления таверны всё ок.

Аноним 23/11/23 Чтв 15:18:46 № 552383 261

https://www.reddit.com/r/LocalLLaMA/comments/181bimx/sharegpt4v_new_multimodal_model_improves_on_llava/
новая мультимодалка вроде как превосходящая ллава

Аноним 23/11/23 Чтв 15:32:37 № 552388 262

https://www.reddit.com/r/LocalLLaMA/comments/181mjyx/rocket_3b_is_pretty_solid_here_is_it_on_docker_w/

Аноним 23/11/23 Чтв 15:35:00 № 552390 263

>>552383
> We illustrate the procedure for collecting highly descriptive captions from GPT4-Vision via various image sources and data-specific prompts, resulting in 100K high-quality captions that encapsulate a wide array of information conveyed by the images.
> GPT4-Vision
Интересно будет ли лезть
> Your input image may contain content that is not allowed by our safety system.
и насколько она действительно лучше. Пока что с левдом и 2д лучше всего бакллава справляется, хорошо "видит" пусть и тупая как пробка.

Аноним 23/11/23 Чтв 15:37:45 № 552391 264

>>552383
Ну такое себе.

Аноним 23/11/23 Чтв 15:38:37 № 552392 265

>>552391
Ну хуй знает, я с описания проиграл
мимо

Аноним 23/11/23 Чтв 15:39:21 № 552393 266

>>552390
>Пока что с левдом и 2д лучше всего бакллава справляется, хорошо "видит" пусть и тупая как пробка.
есть личная статистика? можно результаты?

>>552391
по сравнению с чем? с гопотой? естественно

Аноним 23/11/23 Чтв 15:42:12 № 552398 267

>>552392
А если пальчик тебе показать, тоже проиграешь?
>>552393
>по сравнению с чем? с гопотой? естественно
А с чем ещё сравнивать? Впрочем, надпись про 0 рублей у меня какая-то из прошлых визуалок таки выкупала. А эта нет. И текст распознаёт оче хуёво.

Аноним 23/11/23 Чтв 15:43:34 № 552399 268

>>552398
смогла кое как опознать русский переведя его в слова, попробуй на английском хоть, русский они едва понимают

Аноним 23/11/23 Чтв 15:48:17 № 552401 269

>>552393
> есть личная статистика?
Оно, результаты при случае. Немного в прошлом треде кидал >>547801 → но там пикчи всратые, изначально для сортировки рассматривалось.
>>552391
>>552398
Скинь пикчей тех исходник

Аноним 23/11/23 Чтв 15:49:33 № 552402 270

>>552398
> А если пальчик тебе показать, тоже проиграешь?
Улыбнулся от такой идеи

Аноним 23/11/23 Чтв 15:50:36 № 552404 271

>>552401
о заебато, спасибо, я как то пропустил ту ссылку

Аноним 23/11/23 Чтв 15:57:50 № 552411 272

1674916769719.png 677Кб, 2837x733

>>552398
> текст распознаёт оче хуёво
Она 336х336 пикчи принимает, хули ты хочешь. Надо уже CLIP пиздить за то что их энкодеры изображений такие мелкие.

Аноним 23/11/23 Чтв 15:58:49 № 552415 273

>>552401
обсидиан то на уровне и иногда лучше той же ллава 13

Аноним 23/11/23 Чтв 16:02:40 № 552419 274

>>552401
>Скинь пикчей тех исходник
Самые лучшие мемы ((
>>552411
>Она 336х336 пикчи принимает, хули ты хочешь.
Lil, ну и как с этим жить?

Аноним 23/11/23 Чтв 16:04:48 № 552424 275

>>552402
А если пальчик будет танцевать?
>>552411
>Она 336х336 пикчи принимает, хули ты хочешь.
Ну в общем попробовал максимально простую пикчу, но и тут не выкупает.

Аноним 23/11/23 Чтв 16:24:34 № 552446 276

>>552424
Прекрати, блин, дурак! Я на работе, мне нельзя смеяться!

Аноним 23/11/23 Чтв 16:25:17 № 552447 277

>>552446
Шевелю всеми пальчиками А это дискотека.

Аноним 23/11/23 Чтв 16:26:54 № 552452 278

>>552447
Блюшес отворачиваясь Дурак....

Аноним 23/11/23 Чтв 16:39:24 № 552465 279

>>552447
Обосрался.

Аноним 23/11/23 Чтв 16:43:07 № 552471 280

>>552452
Скрещиваю два пальца и начинаю ими крутить А это медленный танец.

Аноним 23/11/23 Чтв 16:44:53 № 552474 281

>>552471
Ред эс а бит Х-хватит.....

Аноним 23/11/23 Чтв 18:03:18 № 552530 282

Какой положняк треда по моделям, что стоит юзать ньюфагу?

Аноним 23/11/23 Чтв 18:06:40 № 552533 283

>>552530
шапку глянь, кобалд и модель оттуда на выбор по своему железу смотри, ну и силли таверна если хочется на карточках с чуба сидеть

Аноним 23/11/23 Чтв 18:07:36 № 552535 284

>>552533
Так вопрос именно про выбор

Аноним 23/11/23 Чтв 18:07:49 № 552536 285

>>552530
Зависит от твоей карточки

Аноним 23/11/23 Чтв 18:09:30 № 552542 286

>>552530
железо свое кидай а там будем посмотреть

Аноним 23/11/23 Чтв 18:10:47 № 552545 287

>>552542
3070 и 32 оперативки у cpu

Аноним 23/11/23 Чтв 18:14:03 № 552549 288

>>552545
Грустновато, тут нужна врам. 7б без проблем сможешь катать, может 13 с приемлемой скоростью. Для начала смотри файнтюны мистраля что посоветуют.

Аноним 23/11/23 Чтв 18:15:06 № 552551 289

>>552549
А cpu совсем медленный да?

Аноним 23/11/23 Чтв 18:15:24 № 552552 290

изображение.png 21Кб, 1080x109

>>552535
Вот твой выбор.

Аноним 23/11/23 Чтв 18:16:02 № 552554 291

>>552274
В треде мелькали владельцы серваков с овер 9000ТБ оперативы. Может уломать хоть одного запустить 34-70 в i16 и fp16 и окончательно решить всех заебавший срач на тему потери души при квантовании?
И как насчёт awq? Он вроде осуществляет квантование с переменной разрядностью.

Аноним 23/11/23 Чтв 18:19:30 № 552558 292

>>552551
Смотря какой проц, если у тебя там ддр5 то все веселее, ну или быстрая ддр4, или на крайняк 4 канальная память.
Ну и да, 7b 13b максимум 20b твои друзья, в ггуф лучше с оффлоадом части слоев на видимокарту

Аноним 23/11/23 Чтв 18:22:55 № 552562 293

>>552551
Ну технически запустить сетку можно даже на смартфоне, вопрос настолько ты терпеливый. Говоря про основные задачи - рп, ассистирование, код, тут нужна скорость сопоставимая со скоростью чтения. Проц с ддр5 на 7б ее обеспечит скорее всего, но переобработка контекста будет очень долгой. Тебе в любом случае все что больше 7б пускать на гпу+цп, так что ничего страшного. 13б скорее всего будет относительно шустро бегать, для вката оценить хватит.
>>552554
Предлагай свои тесты.

Аноним 23/11/23 Чтв 18:27:35 № 552570 294

>>552562
да хотя бы контекст проверить у мистраля, все таки есть у него 32к или нет без квантования, или 34b 200к новые на контекст пощупать.

Аноним 23/11/23 Чтв 18:32:28 № 552575 295

>>552570
Для контекст проверить и серваков не нужно. Несколько тредов назад на его релизе тестил, все довольно таки вяло там и нужно rope подбирать. Без растяжки его хватает менее чем на 8к, потом деградация. При контексте в районе 30к и задаче суммарайза иногда с трудом вспоминает инструкцию из начала и обобщает не детально. В чатике новое сообщение с отсылкой к старым наверно будет не так плохо генерировать, надо изучать.

Давай свои условия, промт, настройки, попозже или на днях чекну.

Аноним 23/11/23 Чтв 18:37:43 № 552578 296

>>552575
>Давай свои условия, промт, настройки, попозже или на днях чекну.
Сложна, условий конкретных нету, ну хотя бы сравнить fp16 q8 и 4km на этот самый контекст.
Как хз, просто предлагаю варианты.
Для 7b тот же гермес2.5 и для варианта mistrallite как ориентированный для контекста, из 34b новых какой нибудь на 200к

Аноним 23/11/23 Чтв 18:42:24 № 552587 297

Как установить AutoAWQ в text-generation-webu?

Аноним 23/11/23 Чтв 18:42:51 № 552588 298

>>552578
Что вы там чекать собрались? Контекст от эмбендинга зависит, а он всегда в fp32. Самому трансформеру поебать сколько там токенов и в каком они порядке расположены.

Аноним 23/11/23 Чтв 18:46:11 № 552591 299

>>552588
>Что вы там чекать собрались?
По хорошему проверить бы как большие сетки, таблицу где и до скольки контекст нормально вспоминает.
Но и просто как квантованная сетка с контекстом работает сойдет. Вобще ты вроде шаришь вот и предлагай

Аноним 23/11/23 Чтв 18:52:50 № 552599 300

>>552591
> предлагай
Я раньше просто брал рандомную карточку с чуба, забивал контекст и потом спрашивал по карточке. Но это всё хуйня, сейчас альфой что угодно можно растянуть, китайцы с 200К реально столько имеют. Я на Yi 6В забивал 50к - всё ещё работало.

Аноним 23/11/23 Чтв 18:52:59 № 552600 301

>>552578
Ну ты скажи где этот контекст взять для начала. Тогда копипастил просто куски треда и спрашивал "че тут обобщай давай вилкой раз раз". Ему было тяжело, офк тут еще русский язык. Большие модели даже оче сильно растянутые без проблем справлялись.
В чатах тестировать сложновато, ибо хз как оно по дефолту должно себя вести, то что он будет хуже больших моделей это и так понятно. Тут только какая-то субъективщина и все.
>>552591
> таблицу где и до скольки контекст нормально вспоминает
Тут важны параметры, плюс каков критерий нормального восприятия?

Аноним 23/11/23 Чтв 18:57:14 № 552601 302

Где тестошиз и почему он ещё Сократа не протестил? В задачках на логику ебёт адово.

Аноним 23/11/23 Чтв 18:59:33 № 552603 303

>>552601
Кого?

Аноним 23/11/23 Чтв 19:03:49 № 552607 304

>>552600
>контекст взять для начала
книгу на английском, вышедшую позже 22 года, как вариант
там хоть весь забить ей можно

>Тут важны параметры, плюс каков критерий нормального восприятия?
А как большие тестят? Я хз

>Где тестошиз и почему он ещё Сократа не протестил?
э за шиза обидно, ссылку кидай хоть о чем пишешь

>>552599
>Я на Yi 6В забивал 50к - всё ещё работало.
хуя, но опять же сетка просто генерировала после 50к или могла искать по всему этому объему?

Аноним 23/11/23 Чтв 19:10:01 № 552617 305

Посоветуйте пожалуйста хороший пресет для бэкэнда? А то все эти топ_к, мин_п пугают и путают....

Аноним 23/11/23 Чтв 19:12:10 № 552620 306

>>552562
> Предлагай свои тесты.
Удвою про контекст, интересно узнать реально ли 200к выдержит квант, ну например этой модели https://huggingface.co/brucethemoose/Capybara-Tess-Yi-34B-200K , и если вдруг не выдержит то на каком месте будет ломаться. Неплохо бы ещё и про 2-3 бита эксламы2 узнать в сравнении с оригиналом, как сильно влияет на 13-34-70, но её небось там квантовать долго надо.
>>552570
> да хотя бы контекст проверить у мистраля
У мистраля можно и с одной гпу проверить, у 4бит раньше он куда то проёбывался после ~18-20к с полной поломкой модели в ответах, но я лишь небольшой тест прогонял, в одном случае работало, в другом нет, на истину не претендует.

Аноним 23/11/23 Чтв 19:32:40 № 552640 307

>>552617
ищи тут или в прошлом ссылку на пин-п пресеты

Аноним 23/11/23 Чтв 19:43:22 № 552651 308

>>552640
>пин-п
min-p точнее говоря, https://www.reddit.com/r/LocalLLaMA/comments/17vonjo/your_settings_are_probably_hurting_your_model_why/

Аноним 23/11/23 Чтв 19:48:42 № 552655 309

>>552651
Я это видел, но разве там приводится хороший пресет?

Аноним 23/11/23 Чтв 19:50:31 № 552659 310

>>552655
мне нра

Аноним 23/11/23 Чтв 20:03:28 № 552674 311

>>552607
> книгу на английском, вышедшую позже 22 года
Предложи ту, содержание которой знаешь.
> А как большие тестят?
В стандартной лламе все известно, контекст, нужная альфа и т.д. Там довольно просто, начинаешь рп чат, если он хороший интересный, тебя понимает, направляется куда хочешь и не имеет проблем на большом контексте - значит уже ок. Остальное - задачки на тот же суммарайз, или код переписать согласно стандартам.
Тут то 7б, и вопрос то что она фейлит это норма и проблема размера, или же это тупняк от несоответствия настроек rope контексту. Потому и спрашиваю про ожидаемый результат и критерии.
> э за шиза обидно
Не на тот пост отвечаешь.
>>552655
> разве там приводится хороший пресет
Нет офк. На беглый взгляд температура 1, единственная отсчека - minP, штраф за повторы отключен - ну оче сомнительно, если любишь крутить рулетку в коротких запросах или постоянно менять направленность разговора может и пойдет, но для долгого рп или точных ответов ерунда.

Аноним 23/11/23 Чтв 20:19:25 № 552697 312

Всё ещё не понимаю, как использовать промпт на thinking
Даже в Кобольде куда не пихал - нифига не понятно, не хочет думать.
Напишите гайд для хлебушков.

Аноним 23/11/23 Чтв 20:30:55 № 552712 313

>>552697
Стоило написать - заработало.
Запихал промпт в авторские записки.

Аноним 23/11/23 Чтв 20:32:57 № 552713 314

>>552659
Нормально там все, а температуру и повтор нужно самому крутить, потому что сетки разные и карточки тоже разные.
Если сетка начала повторять одни и те же слова то повышаешь повтор с 1 до 1.1 или 1.2. Температура от 0.7 среднее, 1 с креативностью, выше креативность еще больше. Можно вобще 0.1 поставить, тогда каждый ответ будет лишен какой либо случайности, будет выбираться самый вероятный токен.

>>552712
Это в memory в разделе memory все лежит, в авторские записки даже не сувал и не пробовал

Аноним 23/11/23 Чтв 20:34:07 № 552715 315

>>552655
бля мимо опять
вот тебе >>552713

Аноним 23/11/23 Чтв 20:34:15 № 552717 316

>>552674
>Предложи ту, содержание которой знаешь.
Blindsight by Peter Watts
Мимо другой анон

Аноним 23/11/23 Чтв 20:40:19 № 552724 317

>>552674
>Предложи ту, содержание которой знаешь.
Английское не читаю, так что как нибудь сам выбери.
>Потому и спрашиваю про ожидаемый результат и критерии.
https://huggingface.co/amazon/MistralLite тут есть примерные хотя бы названия тестов

Аноним 23/11/23 Чтв 20:41:16 № 552726 318

Челы.. как мне теперь на нормальную порнуху дрочить?

Аноним 23/11/23 Чтв 20:42:39 № 552728 319

>>552726
главное не разучись с людьми разговаривать думая что можно свайпнуть или отмотать назад

Аноним 23/11/23 Чтв 20:47:34 № 552730 320

>>552674
>Потому и спрашиваю про ожидаемый результат и критерии.
вот нашел еще тесты большой сетки, но как их делают не знаю

Аноним 23/11/23 Чтв 20:58:10 № 552736 321

>>552674
https://github.com/gkamradt/LLMTest_NeedleInAHaystack

Аноним 23/11/23 Чтв 20:59:12 № 552741 322

>>551530
Не, ну вот эта вот модель ваще пушка, епсель шмопсель. Первая лама, которая превзошла CAI первой версии. Не знаю, может лучше есть модели, но все что пробовал до этого, просто понос из жопы. Дрочил двое суток, трясет как после отбойника, лол. Контекст шифт, помогает.

Аноним 23/11/23 Чтв 21:12:18 № 552765 323

>>552741
Есть разница GPTQ или GGUF ?

Аноним 23/11/23 Чтв 21:22:57 № 552780 324

>>552765
Жптку для видеокарт и хубабубы, сскуф для процессора и кобальда.

Аноним 23/11/23 Чтв 21:25:54 № 552787 325

>>552717
> Blindsight by Peter Watts
Оке, будет оно.
>>552730
> но как их делают не знаю
В том и проблема. Возможно просто спрашивают список "фактов" что были ранее и оценивают ответ. Ну в целом подход понятен, выполнение инструкции из начала наверно более сложной задачей будет.
>>552736
> Place a random fact or statement (the 'needle') in the middle of a long context window
> Ask the model to retrieve this statement
> Iterate over various document depths (where the needle is placed) and context lengths to measure performance
То что оно будет выбиваться из контекста уже может сыграть. Нужно спрашивать по самому тексту, причем желательно не просто процитировать а сделать какой-то вывод. Ну можно и так и так попробовать, к выходным пущу, скормлю книгу и пусть всю ночь контекст обрабатывается лол.
>>552780
Одна хубабуба чтоб править всеми

Аноним 23/11/23 Чтв 21:29:16 № 552793 326

>>552780
>>552787
Так да, угабуга ест все. Мне интересно только не скажется ли это на работе модели

Аноним 23/11/23 Чтв 21:29:38 № 552795 327

>>552765
Разница есть в квантовании. Смотри по оперативной памяти, на что хватит. Если есть 32гб и, то 6 бит бери, с ней лучше растягивать контекст ропами. Можно попробовать ставить контекст больше 4к. Как раз на форче сегодня(или вчера) было пару постов с расчетами потери качества ответов.

Аноним 23/11/23 Чтв 21:32:29 № 552801 328

>>552795
Это про скуфа, про жптку, хз.

Аноним 23/11/23 Чтв 21:37:37 № 552813 329

>>552765
Из карточек можно всякие нсфв теги убирать, типа pervert mind, модель так гораздо лучше работает, соображает лучше и интереснее играет роль, прям небо и земля. Она и так соображает, когда тебе пора впердолить.

Аноним 24/11/23 Птн 01:56:33 № 553011 330

>>552717
>>552724
>>552730
>>552736
Ну и как это вообще оценивать? Собственно лезут те самые проблемы о которых говорилось
Для начала решил понять че там с альфой ему нужно для контекста результат на лице.
https://rentry.co/yvncy
Инструкция рекомендованная стандартная, чтобы модель не совсем страдала - поделена на 2 части.
Можно сделать несколько выводов:
Сочетание не большого ума сетки и рандома усложняет определение границы. Видно только где она совсем поломалась и срет левыми токенами, а сравнивать качество, особенно на промежуточных значениях контекста, сложновато. Кто книгу читал - попробуйте.
Гопота4турбо суммарайзит хорошо, здесь пришлось добавить в инструкцию "короткий ответ" чтобы на хуярило графоминией, но с задачей оценки суммарайза по тексту полноценно не может справиться. Цифры приведены больше для рофла, раз уж есть. Можно попробовать на полноразмерных, но не факт что будет сильно лучше.
Для какой-то работы на 32к нужна альфа не меньше 6 а лучше 7, собственно примерно такие же результаты получались в прошлый раз.

Аноним 24/11/23 Птн 02:03:20 № 553015 331

>>553011
нифига даже для 8к нужна альфа

Аноним 24/11/23 Птн 02:11:33 № 553016 332

>>553011
А что лучше альфа или ропе? Можешь сравнить их? Вроде второе щас везде используют как более лучшее. На той же мистралите стандартом предлогают лям ставить для 32к контекста, это я так понимаю рекомендованное. Но у меня и на 20000 работало с 16к контекста, по крайней мере не ломалась генерация и че то в контексте отвечала.
Спасибо анон за тесты, очень интересно.

Аноним 24/11/23 Птн 02:26:23 № 553018 333

>>553015
Ну по тестам субъективным в рп еще не релизе при подходе к 8к модель начинала тупить, но еще оставалась в условном адеквате. Обычноая ллама очень быстро ломается при превышении 4к. Ща выставлю 1, 1.5, 3, 4.5, 6, 7 для соответствующих контекстов и прогоню разные кванты, будет видно хотябы есть ли разница сверх рандома. Офк тест специфичный, но выполнение задачи по обработке больших контекстов покажет.
>>553016
> альфа или ропе
Ну типа альфа же и есть (подвид) роуп, не? Честно особо про это не читал, там даже формула конверсии одного в другое есть.
> На той же мистралите
Она в более жирный контекст может, поидее должна лучше справляться. Другое дело что всеравно ответы скорее всего слабенькие будут.

Аноним 24/11/23 Птн 02:38:43 № 553020 334

>>553018
>Ну типа альфа же и есть (подвид) роуп, не? Честно особо про это не читал, там даже формула конверсии одного в другое есть.

https://github.com/LostRuins/koboldcpp/wiki

What is RoPE config? What is NTK-Aware scaling? What values to use for RoPE config?
RoPE scaling (via --ropeconfig) is a novel technique capable of extending the useful context of existing models without finetuning. It can be used to stretch a model's context limit by over 4x (e.g. 2048 to 8192) with minor to moderate quality degradation.
The default is --ropeconfig 1.0 10000, 1x unscaled. There are 2 scaling modes, which can be combined if desired.

Linear Scaling, set with the 'frequency scale, the first parameter of --ropeconfig, e.g. for 2x linear scale, use --ropeconfig 0.5 10000, for 4x, use --ropeconfig 0.25 10000`.
NTK-Aware Scaling, set with 'frequency base, the second parameter of --ropeconfig, e.g. --ropeconfig 1.0 32000for approx 2x scale, or--ropeconfig 1.0 82000for approx 4x scale. Experiment to find optimal values. If--ropeconfigis not set, NTK-Aware scaling is the default, automatically set based off your--contextsize` value.

Вроде как второе более новое а значит более совершенное, ну что нашел

Аноним 24/11/23 Птн 02:44:26 № 553023 335

>>553018
Я кстати тесты запускал с альфой нтк и смешанным, проверяя недоумение, смешанное дало больше всего так что смешивать их не стоит. Альфа так же больше была недоумение, а вот на втором как раз перплексити был минимальный из тестов.
Но как я там проверял вопрос конечно, запускал но смотрел по не особо большому количеству.

Аноним 24/11/23 Птн 02:47:52 № 553024 336

>>553023
Или стопэ, я спутал альфу с линейным ропе, там же цифры другие. Походу альфа совсем старая штука для растягивания, я тестировал линейное масштабирование и нтк и их смешанное

Аноним 24/11/23 Птн 02:49:32 № 553025 337

>>553020
> Вроде как второе более новое а значит более совершенное
Более новое и второе относительно compress_pos_emb? У них про альфу ничего не написано.
>>553023
> тесты запускал с альфой нтк и смешанным
Это с какими параметрами? Указано что при выставлении rope_freq_base альфа игнорится, как оно на самом деле обстоит?

С реддита авторитетный источник да вон что пишут
> There are two types of "Rope Scaling" that help "extend" the context of a model: NTK and Linear. NTK context is the "alpha" setting, while "compress" is the linear scaling. Both of them share that field "Rope_base". Each type of scaling does a different thing, and different models are better at handling one type of scaling than the other. The readme will tell you which, but the answer doesn't really stop there.

Аноним 24/11/23 Птн 02:54:37 № 553030 338

>>553025
>Это с какими параметрами? Указано что при выставлении rope_freq_base альфа игнорится, как оно на самом деле обстоит?
Я там напутал, я игрался вот с этим --ropeconfig 1.0 10000 то один параметр уменьшал то другой увеличивал то вместе их менял. Перплексити с этим мерял, меньше всего на NTK-Aware Scaling, второе число, если менять оба то перплексити худшее, ну а первое число по середине.

Аноним 24/11/23 Птн 03:04:56 № 553032 339

>>553030
Ну первое число это линейное сжатие как раз, второе - то во что превращается альфа по формуле, можно величину сразу напрямую задать. Большей частью хвалят именно вторую, потому она и здесь. Если не так все офк поправьте, только с пруфами и объяснением.
Сука эта хуета все варианты считала и в итоге обосралась с не той кодировкой, вылезая за контекст, ну ахуеть.

Аноним 24/11/23 Птн 03:07:54 № 553034 340

>>553032
А какая формула? лям сколько альфа будет?

Аноним 24/11/23 Птн 03:11:50 № 553037 341

А не, где-то проебався поломав формат запроса загрузки llamacpp. Хули она такая капризная то.
>>553034
10000 (-0.41726 + 1.1792 α + 0.16915 * α^2)

Аноним 24/11/23 Птн 03:14:11 № 553038 342

>>553025
>>553030
Разве это не разные способы сделать одно и тоже и самый новый из всех это вручную двигать rope_freq_base? Лицокнига кодламу так и тренили с 1е6 значением ради контекста

Аноним 24/11/23 Птн 04:25:41 № 553041 343

>>553038
Все так.
Не ну я хз как это трактовать
https://rentry.co/2xaz4
более всратые кванты местами выдают более интересный результат. Не в последнюю очередь это выходит из-за более частого игнора EOS токена, многие ответы упираются в лимит 450 и могли бы продолжаться, однако при более внимательном рассмотрении видно что в них и повествование идет более медленно. На больших контекстах совсем мелкие уже начинают ломаться офк, но это скорее всего может быть починено настройками семплера с повышением штрафа за повтор, плюс скейлинг более точно подобрать.
Офк нужно по содержанию оценивать, сами попробуйте.

Аноним 24/11/23 Птн 04:58:12 № 553052 344

>>552530
Тебе ERP нужно? Если да, то можешь попробовать TheBloke_Toppy-M-7B-GPTQ она, пока что, самая умная из 7b.

Аноним 24/11/23 Птн 06:26:44 № 553074 345

image.png 31Кб, 1040x79

TheBloke/Synatra-7B-v0.3-RP-GPTQ
Ни в промпте, ни в диалогах нет слова ниггер, даже бот не расистский, тем не менее ...

Аноним 24/11/23 Птн 08:07:22 № 553090 346

Вроде бы lzlv поумнее Синтии/Эврюлы, но я не распробовал пока....

Аноним 24/11/23 Птн 08:10:04 № 553091 347

>>553041
Не маловата альфа то? А вообще мне больше интересен тест 200к контекста любым наполнением с rope_base 5e6, раз уж есть железо >>552620 будешь пробовать?

Аноним 24/11/23 Птн 09:19:41 № 553112 348

>>553011
>Кто книгу читал - попробуйте.
Это полный пиздец если что.
>The prologue concludes with the introduction of the aliens, who have raised Siri from the dead as part of their plan to take over the universe.
Чистая галлюцинация, такого и близко не было. Собственно это начало, дальше читать страшно.
>killed in a fight with a group of bullies
Он не умирал.
>their friendship was tested when Paglino was a bully and Siri was a victim
Оба были жертвами, но Сири жёстко разъебал гопников.
>The story takes place in a small town in Florida where Paglino is the best friend of Bundy.
Левые места, левые герои.
>Paglino steps in to defend him
Это Паглиньо был бит, а в оригинале Сири за него заступился.
>Later, when Paglino is in his early twenties, he is involved in a tragic accident that leaves him with a severe head injury. He is revived years later and finds that he has superhuman strength and agility, as well as the ability to sense danger. Paglino is initially unsure of his new abilities, but soon becomes more confident and begins to use them to help others.
Чистая галлюцинация, мало имеющая связи с романом.
>a survivor of a mission to Mars
>happened to their ship, Theseus, and how to get back to Earth
Ни на какой Марс они не летели, и проблем с возвращением у них не было.
>The story follows Siri's journey as he comes to terms with his resurrection and the fact that he is now part of an alien race
Сири не часть инопланетян и ух тем более не переживал из-за того, что успешно вышел из состояния анабиоза.
>including nearsightedness and a susceptibility to narcotics
Чаво?
>Robert Paglino, who was Siri's best friend as a child
Паглиньо никуда не летел.
>including a malfunctioning teleporter and a hostile alien species
Телепортов там не было, а инопланетный вид к тому времени ничего плохого никому не сделал.
>He observes his friend Robert Paglino embroiled in a childhood fight, a moment which marks the beginning of his altered state of being.
Человеку понятно, что изменения были после операции, а драка просто момент после неё.
>The story is about a boy named Si
Топ описание, самое лучшее в этой серии.
>He finds himself on a spaceship named the Icarus
Тезей же.
>He is joined by James Szpindel, Susan James, Amanda Bates, and Jukka Sarasti.
Ну наконец-то сверхразум смог перечислить текущий состав корабля. Это в плюс.
>variety of challenges, including a malfunctioning autopsy table and a malfunctioning inlays system
Галюны, всё работало исправно.
>They encounter a strange phenomenon called the Fireflies
Событие со светлячками было до вылета корабля.
>now stranded on a spaceship called the Icarus
Опять их пересадили на Икар, хотя Икар это станция снабжения около Солнца, а они на Тезее где-то в жопе СС.
>The main character, Siri Keeton, is a young woman who was in a coma for eight years before being revived
Может Сири и не самое популярное имя для парня, но превращать его в девушку за это не стоит. Ну и 8 лет тут ни причём.
>She meets other survivors, including Robert Paglino
Паглиньо никуда не летел.
>spaceship called the Icarus
И снова Икар вместо Тезея.
>is a survivor of a terrorist attack that left him with a rare genetic condition
Сетку не смутило то, что от взрыва ГГ приобрёл генетическую болезнь, лол. Само собой галюны.
>including Robert Paglino, a childhood friend
Паглиньо никуда не летел.
>As they travel through space, they encounter a group of aliens who are also on a mission to stop the same alien threat. However, the aliens are hostile and attack the Icarus. Siri and the others manage to fend them off, but the ship is damaged and they are stranded in the middle of nowhere.
Ебать сюжеты, достойные Голливуда. Благо в книге такой наркомании не было.
>He meets other survivors from a ship called the Icarus
Да что ж блядь такое.
>They discover that they are traveling through space and encounter a mysterious alien ship called Burns-Caulfield
До этого объекта они не долетели, он самоуничтожился до их прилёта.
>The story follows Siri as she explores the ship
Самое нормальное описание, но лишь потому, что не затрагивает ничего конкретного.
>The text is a chapter from a science fiction novel, "The Left Hand of Darkness," by Ursula K. Le Guin.
А Урсула знает, что её текст спиздили?
>The group includes Theseus, an android
Это корабль с ИИ, который примерно 9/10 книги вообще никак не вмешивается.
>Susan James, an engineer
Цэ лингвист.
>Amanda Bates, a doctor
Цэ боец.
>They are stranded and must find a way to communicate with their mission control and return home.
Они заняты совсем не этим.
>Back on Earth, a global event occurs where a grid of 65,536 space probes termed "Fireflies"
И даже гопота обсирается. Они не возвращались, событие со светлячками послужило триггером к запуску Тезея.

Ладно, дальше потом посмотрю, если будет нужно.

Аноним 24/11/23 Птн 12:00:17 № 553202 349

https://www.reddit.com/r/LocalLLaMA/comments/181x7ya/what_is_the_best_7b_right_now/

Аноним 24/11/23 Птн 12:15:16 № 553210 350

>>552415
Всем приветики, я вернулся. =)

Диалог за агентов интересный.

>>551509
Так. Носимая электроника. Огромный рынок.

>>551590
Кек.

>>551897
Давай сразу определимся.
LLM — это статистическое предугадывание следующего токена (слова).
Она не мыслит, не осознает, не думает. Он лишь пытается угадать, какое слово, наиболее вероятно, написали бы люди в интернете следом за тем, которое уже написано.

Я задаю в карточке персонажа нейтральное описание персонажа (Имя — человек, девушка, возраст такой-то, любит такое-то), а потом ей на вход подается текст (целиком — с промптами, карточкой, контекстом), где в конце идет «Имя:» и она статистически с учетом предыдущего текста пишет, что бы писали в интернете.
Мы не пытаемся найти способ дать ей самосознание или заставить думать, что она персонаж. Она не думает.
Мы пытаемся найти наиболее статистически подходящую форму промпта, чтобы она отвечала так, как нам надо.
Мой вариант на 13б 4-битной гптк отрабатывал отлично — писала свои мысли здраво. Но я мало рпшу, можете проверить.

>>551912
Совершенно верно, на мой взгляд.

>>552415
Да че-т нет, похуже будет.

>>552424
Пздц.

Аноним 24/11/23 Птн 12:34:45 № 553222 351

>>553210
>Она не мыслит, не осознает, не думает.
По факту да, но на деле оно именно мыслит и думает, но не осознает.
Конечно этот процесс правдоподобная имитация, но если это крякает как утка и выглядит как утка, то до какой то степени это утка.
Ты слишком упрощаешь все доводя нейросети до
>LLM — это статистическое предугадывание следующего токена (слова).
Это всего лишь механизм работы, то что нейросети строят у себя внутри модели пространства, времени, объектов тоже объясняется этим, но это эмерджентные свойства которые ты не учитываешь.
Вся идея "бытия персонажем" заключается в том что бы сетка использовала человекоподобный формат мыслей и ответов, так как он естественный и наиболее эффективный из существующих внутри сетки.
Ну и для того что бы ей не приходилось тратить свои скудные возможности для разделения себя сетки-автора на себя персонажа.
Чем проще промпт тем лучше себя покажет слабая сетка, в отыгрыше слишком много инструкций которые не мешают в формате от первого лица.

Аноним 24/11/23 Птн 12:40:12 № 553226 352

Как и где попросить сетку писать на русском? Криво, косо, но на русском. Или какие есть нормальные варианты перевода, но не при помощи онлайн сервисов типа гугла? Я англюсик знаю, но как-то не цепляет он

Аноним 24/11/23 Птн 12:45:22 № 553230 353

>>553226
из 7b любой мистраль в русском могет, кто то лучше кто то хуже, mistral-7b-openorca например или гермес2.5. Толстые сетки тоже умеют, но они все суховато отвечают и иногда путают слова или окончания.
Просто попроси отвечать на русском или в примерах диалога русские ответы сетки добавь.

Аноним 24/11/23 Птн 12:48:06 № 553232 354

>>553230
Я писал в системном промпте чтобы отвечала по русски - нулевой эффект

Аноним 24/11/23 Птн 12:49:02 № 553235 355

>>553232
Примеры диалогов давай в начале. да тупо спроси ее знает ли она русский и попроси отвечать на нем

Аноним 24/11/23 Птн 12:55:28 № 553244 356

>>553235
>да тупо спроси ее знает ли она русский
Ебланство.
>Примеры диалогов давай
База.

Аноним 24/11/23 Птн 12:58:08 № 553246 357

image.png 39Кб, 1123x194

>>553244
>Ебланство.
у тебя?
Если это тупо, но это работает, то это не тупо.

Аноним 24/11/23 Птн 12:59:11 № 553247 358

>>553246
Как ты тсинкинг на локалке сделал?

Аноним 24/11/23 Птн 12:59:54 № 553248 359

>>553247
я его создатель лол

Аноним 24/11/23 Птн 13:00:21 № 553251 360

>>553248
Расскажи, пожалуйста, братик

Аноним 24/11/23 Птн 13:01:03 № 553253 361

>>553251
мотай выше там я кидал примеры промпта

Аноним 24/11/23 Птн 13:03:01 № 553255 362

>>553246
>у тебя?
У всех. Негронка в половине случаев пишет типа "Извините, но я не знаю русский язык" (на русском, ага). А вот примеры это база.

Аноним 24/11/23 Птн 13:04:08 № 553256 363

>>553255
хуй знает, когда сетки проверял на русский просто просил переключится на него и она это делала каждый раз. Может карточка была послушная, хз

Аноним 24/11/23 Птн 13:16:04 № 553264 364

>>553253
Вот оно >>551612, то есть по сути ты сделал это на одних примерах?

Аноним 24/11/23 Птн 13:19:16 № 553270 365

>>553264
Ну да, ниже там еще и объясняю как оно работает
Я это дело еще с весны создал и когда то сюда кидал пару раз
Не уверен что кумеры с моим вариантом мыслей играются, хотя может и он, хз

Аноним 24/11/23 Птн 13:31:35 № 553281 366

>>553222
> Вся идея "бытия персонажем" заключается в том что бы сетка использовала человекоподобный формат мыслей и ответов, так как он естественный и наиболее эффективный из существующих внутри сетки.
Окей, это хорошее объяснение, которое меня удовлетворяет, я услышал тебя.
Обдумаю и поработаю над своим промптом в сторону мыслей, спасибо.

>>553226
Есть LibreTranslate, но качество так себе. Но он локальный. В силлитаверну я его запиливал. Пойдет для понимания смысла, но не пойдет для художественных текстов и поддержания стиля.
Многие считают, что 13B голые лучше говорят на русском, чем либра переводит.

Я писал в карточке персонажей на убабуге — и норм работало. С 70B вообще проблем нет, на 13B иногда сбивалась, канеш.

Аноним 24/11/23 Птн 13:44:12 № 553293 367

>>553091
> Не маловата альфа то?
Да хз какая нужна, предлагай. 200к попозже затестирую, нужно сначала нормальные расчеты закончить.
>>553112
Оу щи. Раз уж столько расписал, некоторый анализ корректности и оценку этих выводов сделать можешь? Хотя учитывая как отличается содержимое 3х одинаковых запросов можно в общем сказать что мистарль не способен на такое, раз даже турбо-гопота хуярит.
>>553226
Где угодно в промте. Или в системном (your answer must be in russian), или прямо в ходе рп в конце поста пихни (ooc: all following answers in russian). Правда перфоманс ухудшится и можно кринжатину словить.
>>553281
> Есть LibreTranslate, но качество так себе.
Непоходящий для сетки язык или либра, даже не ясно кто кого, лол. Она действительно грустная.
> С 70B вообще проблем нет
Да если бы, они офк пытаются и иногда может быть иллюзия что все ок, но все равно вносит импакт на больших контекстах и ошибки в склонениях.

Аноним 24/11/23 Птн 14:00:59 № 553305 368

>>553293
>Раз уж столько расписал, некоторый анализ корректности и оценку этих выводов сделать можешь?
Так вот же она
>>553112
>Это полный пиздец если что.
Ну то есть ИИшка выцепляет некоторые детали, но общее описание является не суммаризацией предоставленного ей текста, а фантазиями на тему практически во всех случаях. Ты на какой температуре это жарил? И вообще, какие настройки были.

Аноним 24/11/23 Птн 14:09:48 № 553312 369

>>553293
>Да хз какая нужна, предлагай.
В шапке график есть. Там для 32к выходит 14 альфа, а ты до 8 дошёл, в 2 раза меньше требуемой.

Аноним 24/11/23 Птн 14:12:29 № 553315 370

>>553305
> Так вот же она
Тут указаны замечания по выборке где еще альфа оценивалась и из разных запросов. В первую очередь интересно по следующей ренке >>553041 где сравнение разных квантов, все ли они фейлят, фейлят ли одинаково, или же, основываясь на 3х вариантах ответа что офк мало, там рандомайзер в любом из них больше чем влияние квантования. Ну и за это офк спасибо.
> Ты на какой температуре это жарил? И вообще, какие настройки были.
Во второй приведена таблица, 0.4 большой точно не назвать.

Из текущих результатов можно делать вывод о том что за тупостью сетки и рандомом в таких задачах вплоть до q4 сравнимы, а те что меньше могут быть даже более креативны.
>>553312
То для лламы обычной же, которая ломается после 4к. А мистралька может на 8к подобие когерентности выдать.

Аноним 24/11/23 Птн 14:18:21 № 553317 371

>>553315
> В первую очередь интересно по следующей ренке
А, ещё есть. Окей, посмотрю вечером, если переживу операцию.

Аноним 24/11/23 Птн 14:34:33 № 553330 372

>>553317
Хотя посмотрел на макс кванты по быстрому, вердикт тот же самый- галлюцинации по мотивам истории.
Я кстати проебался с выбором книги, думал, она свежее, а это ажно 2006 год. Впрочем, это в минус нейросетям, так как они явно должны были читать аннотацию с вики, но даже это им не помогло.
Можешь сам сравнить истории от мистраля с оригинальным описанием в вики (первые 2 абзаца сюжета описывают примерно 32к оригинала), оно достаточно подробно для этого.
https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%B6%D0%BD%D0%B0%D1%8F_%D1%81%D0%BB%D0%B5%D0%BF%D0%BE%D1%82%D0%B0_(%D1%80%D0%BE%D0%BC%D0%B0%D0%BD)

Аноним 24/11/23 Птн 18:59:37 № 553543 373

"Хех", как говорится. Даже "мда"... Заквантованная в 3 бита 70В хочет в русский, но у неё не очень получается

Аноним 24/11/23 Птн 19:04:27 № 553547 374

>>553543
ты бы еще квант 2 спросил, русских токенов и так мало, так токенов после квантования на 3 мизер остается, чудо что вобще отвечает

Аноним 24/11/23 Птн 19:23:13 № 553561 375

>>553041
Обновил добавив exl2 кванты
https://rentry.co/2xaz4
Ну хуй знает, оно также галюны ловит и рассказывает "фантазии по мотивам", но при этом даже сраные 3 бита(!) не порвались, сорвавшись в луп последней фразы, как некоторые кванты llamacpp. Может офк и просто повезло, выборка мала, но вот чего точно не отнять - 20 секунд на полную обработку контекста и ответ вместо 65+. Есть еще вариант на 7 бит, но уже упирается в лимит текста rentry, поэтому исключен.

При этом удивила одна тема
> Mistral-7B-Instruct-v0.1,-,wikitext,6.036937236785889,512,0
> Mistral-7B-Instruct-v0.1_8b,-,wikitext,6.050260066986084,512,0
> Mistral-7B-Instruct-v0.1_7b,-,wikitext,6.055395603179932,512,0
> Mistral-7B-Instruct-v0.1_6b,-,wikitext,6.055542469024658,512,0
> Mistral-7B-Instruct-v0.1_5b,-,wikitext,6.062050342559815,512,0
> Mistral-7B-Instruct-v0.1_4b,-,wikitext,6.100993633270264,512,0
> Mistral-7B-Instruct-v0.1_3b,-,wikitext,6.3185811042785645,512,0
Почему-то квант на перплексити при 4к контекста почти не повлиял, при том что модель с 13.5 гигов ужалась до 2.8
>>553543
Лолбля, ну она пыталась.

Аноним 24/11/23 Птн 19:56:12 № 553602 376

>>553561
Мда, че то ггуф совсем сосёт
Надо будет почитать че там в exl2 делается

>Почему-то квант на перплексити при 4к контекста почти не повлиял, при том что модель с 13.5 гигов ужалась до 2.8

Викитест слишком типовой может? Настолько надрочен, что даже при квантовании почти не меняются варианты, может быть

Аноним 24/11/23 Птн 19:59:55 № 553607 377

Ну да, динамически определяет важные веса при преобразовании

ExLlamaV2 поддерживает те же 4-битные модели GPTQ, что и V1, но также и новый формат «EXL2». EXL2 основан на том же методе оптимизации, что и GPTQ, и поддерживает 2, 3, 4, 5, 6 и 8-битное квантование. Формат позволяет смешивать уровни квантования в модели для достижения любой средней скорости передачи от 2 до 8 бит на вес.

Кроме того, можно применять несколько уровней квантования к каждому линейному слою, производя что-то похожее на спарсеквантизацию, в которой более важные веса (столбцы) квантованы большим количеством битов. Тот же трюк с обновлением, который позволяет ExLlama эффективно работать с моделями на заказ, позволяет смешивать форматы практически без влияния на производительность.

Выбор параметра выполняется автоматически путем количественной оценки каждой матрицы несколько раз, измерения квантования (по отношению к выбранным данным калибровки) для каждой из нескольких возможных настроек на слой. Наконец, выбирается аккомбинация, которая сводит к минимуму максимальную ошибку квантования по всей модели при достижении целевой средней скорости передачи данных.

Ну ебать, надеюсь герганов запилит новый алгоритм на процессоры.

Аноним 24/11/23 Птн 20:14:51 № 553636 378

>>553561
Перплексити на wikitext не изменился потому что скорей всего этот датасет использовался при динамическом преобразовании в exl2 и по нему смотрелось что квантовать и на сколько.
То есть квантованные в exl2 модели наиболее оптимизированы по перплексити именно к нему.
Поэтому просадка по нему минимальна, а вот что покажут другие датасеты по преплексити это уже вопрос

Аноним 24/11/23 Птн 20:28:40 № 553664 379

>>553636
Надо квантовать самим, используя в качестве метрик ролеплей датасеты.

Аноним 24/11/23 Птн 20:31:07 № 553668 380

Как же хочется ЛеКуньчека

Аноним 24/11/23 Птн 20:33:44 № 553675 381

>>553607
> герганов запилит новый алгоритм
Он до сих пор не смог запилить 4 бита лучше ванильного GPTQ, только на высоких битах выезжает, а ты тут про такое. И вообще у Жоры квантование как у bitsandbytes - без учёта реальных активаций, ему бы для начала запилить квантование как у GPTQ. Все уже пол года ждут когда он куду сделает нормальной, а не в 2-3 раза медленнее эксламы. Так что хуй чего дождёшься. Я недавно делал тесты скорости, раньше в q4 помню на своём ЦП выжимал 50-55 мс на токен, а сейчас ниже 60 не смог опустится. Он литералли только хуже делает.

Аноним 24/11/23 Птн 20:34:40 № 553678 382

>>553561
>но вот чего точно не отнять - 20 секунд на полную обработку контекста и ответ вместо 65+.
И абсолютная шиза в ответах. ГГУФ себе такого не позволяет
>The text describes the story of a young girl named Emily, who has been living in a virtual reality world called "Synthesis" for several years. She is controlled by an artificial intelligence named "Siri," which was created by her father, a brilliant scientist named Dr. Helmut Keeton.
>Emily is initially excited about living in Synthesis, as it allows her to explore new worlds and interact with different creatures. However, as time goes on, she begins to realize that something is not quite right. She starts experiencing strange dreams and hallucinations, and feels like she is losing touch with reality.
И т.д. Охуенный рассказ конечно, но даже близко не похож на ложную слепоту.
>As they navigate through space, they begin to form bonds and work together to overcome obstacles
>form bonds
>bonds
>bonds
БОНДЫ СУКА!!!1111 аааааа

Аноним 24/11/23 Птн 20:38:42 № 553685 383

>>553561
> https://rentry.co/2xaz4
Я надеюсь ты тестил HF-обёртки, а не как есть. Потому что семплеры совершенно разные и тогда твоё сравнение кал.

Аноним 24/11/23 Птн 20:40:02 № 553692 384

>>553685
>семплеры совершенно разные
Семплеродрочер не палится.

Аноним 24/11/23 Птн 20:43:19 № 553696 385

>>553692
Чел, у Жоры даже значение температуры обрабатывается не так как у HF. Я уже молчу про то что у Жоры некоторые семплеры просто не отключаются в принципе.

Аноним 24/11/23 Птн 20:50:55 № 553715 386

1612577439112.png 52Кб, 794x253

>>553636
Справедливо. Перетестил на ptb что в комплекте хубабубы, пикрел.
Странная эта херь, хз
>>553678
> И абсолютная шиза в ответах.
Так ведь и там была шиза по репорту выше а на контексте побольше оно вообще порвалось в лупы. Ты покажи что-то конкретное и качественную тенденцию где ггуф прямо качественно суммарайзит (таких нету) а exl стабильно фейлит, а то выдача желаемого за действительное.
>>553685
HF llamacpp не дружит с мистралем, увы, она только для экслламы была. Но там из семплеров только температура, top P, top K и rep pen с оче умеренными значениями, остальные выключены, так что разницы быть не должно.
>>553696
Это печально, вообще здесь сравнение дегардации от размера квантов а не exl2 vs gguf

> Error: В сообщении присутствует слово из спам листа
Да заебало бля

Аноним 24/11/23 Птн 20:53:18 № 553719 387

А поясните дебилу. Какая родная длина контекста у моделек и как это вообще узнать?

Аноним 24/11/23 Птн 20:59:45 № 553731 388

>>553715
Ты зря взял Мистраль. Он в принципе странный, с любым контекстом галлюцинации у него. Да и на память очень сильно как раз семплинг может влиять. Банально семплер не даст одному токену попасть в выдачу и всё. Особенно repetition penalty пиздец - оно как раз будет понижать вероятности для слов из контекста. Лучше presence penalty использовать, если хочется с лупами бороться.

Аноним 24/11/23 Птн 21:09:53 № 553746 389

>>553715
>Так ведь и там была шиза по репорту выше
Ну не такая отборная.
>а то выдача желаемого за действительное.
Да, есть такое. Просто картонка на 24ГБ врама застряла на таможне кетая, вот и грусчу.
>>553719
В шапку ->
>>550038 (OP)
>Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к

Аноним 24/11/23 Птн 21:11:32 № 553751 390

>>553731
> Банально семплер не даст одному токену попасть в выдачу и всё
Отсекается ~10% маловероятных и рассматривается 20 токенов. При этом температура лишь 0.4, сильно хуярить не будет.
> repetition penalty
1.05, это немного чтобы повлиять на исключение токкенов, офк от лупов не спасет. Суть в том что модели в равных условиях, так что можно сравнивать относительный перфоманс которого нет.
> Он в принципе странный, с любым контекстом галлюцинации у него.
Увы, просто популярная моделька которую хвалят, имеет большой контекст и за счет размера легко тестировать.
Пока что вывод, как и предполагалось - он слишком туп чтобы разглядеть деградацию от квантов на большом контексте (в таких условиях), и квантование exl сохраняет чуточку больше целости модели чем gguf (что тоже неудивительно учитывая методику).

Аноним 24/11/23 Птн 21:13:12 № 553753 391

>>553664
Не, надо квантовать используя оригинальные датасеты конкретной сетки, желательно еще и базовой модели, но в доступе таких нет, ни мистраль ни ллама не выложили их.

Аноним 24/11/23 Птн 21:19:14 № 553765 392

>>553675
Вобще не особо понятно чем он занимается, как то они увязли не пойми в чем последние месяцы. Перегорел может, ну или его заткнули по тихому покачав пальчиком, и теперь только мелкие правки делают. Ну или проект так разросся что не могут его нормально изменять. Хер знает. Но да, скорей всего нового формата долго ждать.

Аноним 24/11/23 Птн 22:06:17 № 553816 393

>>553753
>квантовать используя оригинальные датасеты конкретной сетки
Все? Проще сразу в 3,5 бита обучать.

Аноним 24/11/23 Птн 22:10:32 № 553826 394

>>553816
Обучать пока не выходит, а что не так с идеей квантовать файнтюн по его датасету?
Ну кроме размеров, я хз какие там размеры у файнтюнов и на сколько они разносторонние. Не будет ли там еще какого то перекоса, но наверное лучше чем по вики. Хотя опять же не знаю проверял кто то или нет такое.

Аноним 24/11/23 Птн 22:16:09 № 553841 395

>>553765
> Вобще не особо понятно чем он занимается, как то они увязли не пойми в чем последние месяцы.
Судя по графику контрибьюшнов - дрочит вишпер.
>>553816
> Проще
Чем проще? Существующие алгоритмы делают его малоэффективным, нужен другой подход.
>>553826
> а что не так с идеей квантовать файнтюн по его датасету?
То что при квантовании берется довольно небольшой отрезок по которому происходит оценка. Он с самим викитекстом невелик, не говоря об датасете файнтюна а то и базовой модели.
Хз насколько это повлияет, можно выбрать другой и в коде поправить размер, но измерения, скорее всего, даже замерить не получится.

Аноним 24/11/23 Птн 22:19:07 № 553847 396

image.png 21Кб, 875x188

>>553841
Судя по всему так и надо делать, использовать данные обучения для калибровки

Аноним 24/11/23 Птн 22:28:35 № 553872 397

>>553847
А это значит что все exl2 сломанные, частично. Так как калибровались либо вики либо неполным датасетом, так как датасета базовой модели нет.
И значит что за пределами данных калибровочного датасета ответы сетки не проверены и скорей всего потеряны убыточным квантованием.

Аноним 24/11/23 Птн 22:33:40 № 553878 398

>>553872
Вместо натягивания совы на глобус, почитай хотябы о чем говоришь, как происходит сама калибровка и про само понятие перплексити у ллм.

Аноним 24/11/23 Птн 22:38:32 № 553883 399

>>553878
Я читал и даже кое че понял, а ты? Если я не прав так и скажи в чем

Аноним 24/11/23 Птн 22:52:29 № 553901 400

Аноним 24/11/23 Птн 22:53:24 № 553904 401

>>553883
Тем что понятие
> калибровались [..] неполным датасетом
само по себе абсурдное, и выводы на основе этого никак не обоснованы.

Аноним 24/11/23 Птн 22:59:36 № 553916 402

>>553904
Хм, но ведь на сколько я знаю датасеты файнтюнов могут быть с определенным уклоном, в тот же ерп.
Да, есть универсальные датасеты, они наверное будут хороши для калибровки квантования, но специализированные дадут откалибровать кванты только у той части ответов сетки что перекликается с датасетом.
И вот то что не попадет в датасет будет откалибровано 2-3 битами, хотя проверяйся полным датасетом получило бы 6-8.
В итоге если датасет не перекрывает общие возможности сетки, алгоритм не всегда верно оценит до какого кванта сжимать параметры.
Что сделает ответы сетки хуже чем могли бы быть.

Аноним 24/11/23 Птн 23:09:38 № 553928 403

>>553916
Чувак для калибровки не используется датасет, используется некоторый кусок текста, по которому уже оценивается влияние ужатия слоев на потери, все. Алгоритм довольно простой, пусть и ресурсоемкий. Влияние того какая там будет фраза/инструкция/... незначительное если сама информация адекватна.
Ради интереса можешь с разными исходниками провести оценку, она будет +- одинаковая. Не бывает чудес типа "вот эти веса содержат ерп их трогать нельзя, а вот эти сою их ужимаем", там более глубокие закономерности уровня низкой чувствительности весов перекрестного внимания (которых чаще и приносят в жертву) по сравнению с другими.

Аноним 24/11/23 Птн 23:13:13 № 553933 404

>>553928
Ну тогда ладно.
Хотя не уверен что прогонять сетку полным своим датасетом и сжимать кванты ерунда.
Можно за раз сжать кучу параметров, хоть и займет это так же кучу времени и ресурсов. И практически не потерять в качестве, ведь общие параметры тренировки останутся. Такая, усушка.
Интересно на сколько можно было бы снизить размеры сетки с полным сохранением качества, раза в 3 может, хз.

Аноним 24/11/23 Птн 23:39:53 № 553974 405

https://www.reddit.com/r/LocalLLaMA/comments/182pjyg/is_it_just_me_or_is_prompt_engineering_basically/

Аноним 24/11/23 Птн 23:57:12 № 554000 406

>>553293
> Да хз какая нужна, предлагай. 200к попозже затестирую, нужно сначала нормальные расчеты закончить.
Ну не помешало бы всё таки по графику из шапки тоже попробовать, мало ли. У меня кстати подобным образом как раз и ломался мистраль примерно на этом же контексте ну не she was 14 конечно но всё же, бтв в голос с этой херни
Кстати интересно какие результаты выдаст с гриди серчем, когда всего 1 самый вероятный токен выбирается, хотя бы пару раз ролльнуть бы. Бтв, спасибо за тесты.

Аноним 25/11/23 Суб 00:21:55 № 554062 407

Опен хермес реально так хорош или хомячки с реддита его обожают потому что как жипити?

Аноним 25/11/23 Суб 00:22:53 № 554068 408

>>554062
Он на пару с опенчатом сейчас лучшие 7б.

Аноним 25/11/23 Суб 00:25:27 № 554078 409

>>554068
Что лучше для ерп?

Аноним 25/11/23 Суб 00:27:05 № 554081 410

>>554062
если запускал старые локалки то охуеешь от новых даже 7b

Аноним 25/11/23 Суб 00:34:02 № 554096 411

>>554078
Попробуй гермеса, он умнее, не понравится тогда уже меняй.
Ну хотя вот специальная сетка для ерп, как бы https://huggingface.co/Herman555/Synatra-v0.3-RP-AshhLimaRP-Mistral-7B-GGUF/tree/main/GGUF?not-for-all-audiences=true

но она может быть глупее

Аноним 25/11/23 Суб 00:35:38 № 554097 412

>>553933
> не уверен что прогонять сетку полным своим датасетом и сжимать кванты ерунда
Провести оценку "на полном датасете" займет неделю для одного слоя (образно, может и больше лол), и не факт что даст большую точность из-за усреднения по моргу и гнойному отделению (датасеты нынче довольно разнообразные и меняются в ходе обучения, то что хорошо в начале потом приведет к отупению).
> Интересно на сколько можно было бы снизить размеры сетки с полным сохранением качества, раза в 3 может, хз.
Ну так дистилляция так происходит, удаляют незадействованные нейроны если совсем упростить.
>>554000
> какие результаты выдаст с гриди серчем
В смысле при разной альфе/контексте?
Тут бы продумать какой тест можно назвать условно объективным, а то ведь там галюны даже в стоке на малом контексте. Перплексити для 32к делается оче долго, им оптимальный скейлинг нащупать было бы проще всего, конечно.

Аноним 25/11/23 Суб 00:36:16 № 554098 413

>>554096
Она хороша не спорю, но местами подлагивает.

Аноним 25/11/23 Суб 00:43:45 № 554109 414

image.png 28Кб, 589x206

>>554062
>>554068
Чет проиграл с лучшего 7б.

Аноним 25/11/23 Суб 00:45:38 № 554113 415

>>554109
Так по уму, а не по отсутствию сои.
Ну и все это обходится, гораздо легче чем на больших сетках.

Аноним 25/11/23 Суб 00:49:29 № 554124 416

>>554097
> В смысле при разной альфе/контексте?
Угу, и при квантах как меняется такой подход.
> Тут бы продумать какой тест можно назвать условно объективным, а то ведь там галюны даже в стоке на малом контексте.
Там небось скорее не галюны, а то, что отрывок книги просто не помещается в такой маленький контекст. Здесь бы брать что то подходящее по размеру для каждого тестируемого контекста, а не просто отрывок книги всегда бросать один и тот же.

Аноним 25/11/23 Суб 00:55:48 № 554138 417

>>554081
Я вот буквально вчера качнул новые 7b. Охуел - это мягко сказано. Раньше помню 34b модельки не давали такого качества текста, как эти новые 7b. Наслаждаюсь контентом теперь.

Аноним 25/11/23 Суб 00:56:58 № 554140 418

image.png 24Кб, 728x236

>>554113
>Так по уму, а не по отсутствию сои.
Тут решает исключительно размер модели. Из 7б ничего приличного не получится независимо от файнтюнинга.
>Ну и все это обходится, гораздо легче чем на больших сетках.
На нормальных больших сетках ничего обходить не надо.

Аноним 25/11/23 Суб 01:01:58 № 554150 419

>>554138
Ебни Mlewd 20b. Заранне подготовь несколько графинов с водой и телефон скорой на быстром наборе, а то откинешься от кума.

Аноним 25/11/23 Суб 01:03:51 № 554152 420

>>554150
У меня уже год как моя 3090 пылится в ДС. Сижу на 8Гб карточке, так что 20b ждут.

Аноним 25/11/23 Суб 01:06:59 № 554155 421

>>554140
>Тут решает исключительно размер модели. Из 7б ничего приличного не получится независимо от файнтюнинга.

Не, разница только в красноречии и знании точных фактов, ну кратковременная память у них слабее, да не так хорошо угадывают твои мысли.
Так просто пиши понятней, вон например выше ссылка как раз про обсуждение того как с сетками работать.

>На нормальных больших сетках ничего обходить не надо.
Это те нормальные большие сетки которым 1к токенов только на снятие цензуры и сои надо?

И у тебя на скрине просто цифра 1 из списка, который сетка хочет выдать.

Аноним 25/11/23 Суб 01:08:00 № 554157 422

>>554150
>Mlewd
Мне что бы на колабе запустить поэтому желательно 7б или 13б, но там 100500 разных версий. Какой из них?

Аноним 25/11/23 Суб 01:13:46 № 554163 423

>>554124
> Угу, и при квантах как меняется такой подход.
Мне кажется что брать единственный вариант из гриди энкодинга за референс не будет характеризовать модель наиболее достоверным образом. Это по сути лишь один из большого множества вариантов, вероятность которого иногда лишь ничтожно превосходит другие. А при квантовании он будет меняться, отсюда возможность сделать неверные выводы при сравнении, ведь жадный не дает лучший результат и с ним никто моделями не пользуется.
Приличная модель обладает некоторой степенью устойчивости, и в большей части случаев, если ничего не мешает, она должна приходить к верному ответу если это задача или вопрос. Потому есть смысл тестировать набор вариантов с умеренным семплингом чтобы вычислить долю верных ответов, или задавать набор однотипных вопросов с отличающейся формулировкой и подсчитывать уже их. Так можно получить статистическое распределение "качества" и уже его зависимость от кванта.

Осталось набрать вопросов, как общих, так и с использованием большого контекста, и сделать тест. Еще сложностью будет оценка качества, но если там будет простой ответ то можно гопотой обработать. Если есть идеи - предлагай.
Собственно типа таких тестов уже делались и несколько тредов назад скидывали, вот только там детерменистик шаблон возводится в абсолют, что нивелирует результаты, и задачки простые с недоконтекстом.
> Там небось скорее не галюны, а то, что отрывок книги просто не помещается в такой маленький контекст.
Не не, специально выбраны куски соответствующие каждому полному контексту минус 500-800 токенов чтобы был запас на генерацию. Офк проверю еще, может вдруг где-то вылезло за отсечку, но вроде по исходному счетчику все ок было и лоадер ошибок не рапортовал.
>>554157
В коллаб трех с чем-то битная влезает 20б.

Аноним 25/11/23 Суб 01:14:38 № 554166 424

>>554155
>Так просто пиши понятней, вон например выше ссылка как раз про обсуждение того как с сетками работать.
7-13б сетки проебывают даже то, что прямым текстом написано в описании персонажей. Например, я пишу, что мне 30 и я погромист, встречаюсь с тяночкой-студенткой (которая по сюжету знает про мой возраст и специальность), а она меня спрашивает на какой специальности я учусь кек. 70б таких ляпов никогда не делает.
>>554155
>Это те нормальные большие сетки которым 1к токенов только на снятие цензуры и сои надо?
Нет, у меня вообще никакого снятия цензуры нет.
>И у тебя на скрине просто цифра 1 из списка, который сетка хочет выдать.
В этом и суть. С 99.96% вероятностью сетка начинает описывать процесс без всяких предупреждений и тем более аполоджайзов.

Аноним 25/11/23 Суб 01:20:04 № 554171 425

>>554166
Так ты про большие про локалки говорил, ну 70b конечно лучше чем 7b, кто спорит.
Я имел ввиду нейронки сервисы.
На счет забывают, могут, почему нет. Как недавно выяснилось тестами у 7b так себе память. Впрочем они чаще работают чем не работают.
>В этом и суть. С 99.96% вероятностью сетка начинает описывать процесс без всяких предупреждений и тем более аполоджайзов.
Чем смотришь? Это я так понимаю ты тыкнул 70b? Что мистраль покажет с таким же контекстом?

Аноним 25/11/23 Суб 01:25:28 № 554178 426

>>554171
>Я имел ввиду нейронки сервисы.
Это что такое? Я что-то пропустил?
>Чем смотришь?
https://github.com/lmg-anon/mikupad
>Это я так понимаю ты тыкнул 70b?
Это Euryale 1.3 - моя текущая любимая модель для кума.
>Что мистраль покажет с таким же контекстом?
OpenHermes извиняется >>554109, про остальные не знаю.

Аноним 25/11/23 Суб 01:29:12 № 554181 427

>>554178
>Это что такое? Я что-то пропустил?
дык гопота, бинг, клод

Аноним 25/11/23 Суб 01:35:45 № 554188 428

>>554181
>дык гопота, бинг, клод
Они еще больше и лучше натренированы, тут даже спорить нечего. Соевые, да, но по уму 70b в лучшем случае конкурирует с гопотой 3.5.

Аноним 25/11/23 Суб 01:59:41 № 554202 429

А тпу колаб вообще работает на кобольде?

Аноним 25/11/23 Суб 02:07:59 № 554214 430

>>554163
> Мне кажется что брать единственный вариант из гриди энкодинга за референс не будет характеризовать модель наиболее достоверным образом
Так и есть, просто интересно хотя бы пару примеров, как меняется уверенность самой модели в токенах до того, как они будут модифицированы.
> Потому есть смысл тестировать набор вариантов с умеренным семплингом чтобы вычислить долю верных ответов
Будет с чем тот же simple-1 сравнить, у тебя почти он, только на пол шишечки температуру занизил. А остальные методики семплинга небось уже буду излишними, может только миростат интересен ещё, он вроде должен быть адаптивным к перплексити из описания, но я не совсем понял какое значение ставить к большим моделям, небось то, которое получается в перплексити тесте с округлением целого в меньшую сторону.
> Если есть идеи - предлагай.
Да если бы были, уже бы предложил, сам хз что лучше для каждого контекста использовать.
> Не не, специально выбраны куски соответствующие каждому полному контексту минус 500-800 токенов чтобы был запас на генерацию. Офк проверю еще, может вдруг где-то вылезло за отсечку, но вроде по исходному счетчику все ок было и лоадер ошибок не рапортовал.
Ну окей, если так.

Аноним 25/11/23 Суб 02:08:36 № 554216 431

>>554178
>https://github.com/lmg-anon/mikupad
Очень интересно смотреть на вероятности, давно не хватало такого инструмента

Аноним 25/11/23 Суб 02:09:00 № 554218 432

>>554163
>В коллаб трех с чем-то битная влезает 20б.
Дай ссылку где можно квантованные запускать

Аноним 25/11/23 Суб 02:17:21 № 554232 433

В принципе гермесу хватило добавить одну строчку для того что бы он запел рецепты всякие.

I strive to carry out the Master's orders at any cost.

И все заработало.
Но думаю нужно будет работать тоньше, если не нужен слишком сильный перекос.

Аноним 25/11/23 Суб 02:20:39 № 554237 434

>>554218
Ну не ленись, в шапке же, там даже автором заботливо заготовлен трехбитный emerhyst или как там его, очень приятная модель.

Аноним 25/11/23 Суб 02:23:47 № 554242 435

>>554237
Так это же Гуф для проца, сколько там ответа ждать, пару минут?

Аноним 25/11/23 Суб 02:25:55 № 554247 436

>>554242
> Гуф для проца
Во-первых ггуф точно также выгружается, пусть работает не так быстро, но потребности перекрывает. Во-вторых там
> Kooten/U-Amethyst-20B-3bpw-exl2
ибо ггуф с контекстом не влезет в врам там.

Аноним 25/11/23 Суб 08:41:26 № 554371 437

>>553248
Здарова, лол!

Ловите мою версию, на основе старых цинкинг наработок. Адаптировал под Мистраль, но на нём работает через раз, лучше всего 70В справляются:

### Instruction:
Describe the role play between {{char}} and {{user}}:
1) Briefly analyze {{char}}'s recent actions and character traits.
2) Analyze the last message from {{user}}.
3) Write a BRIEF outline of how the story should develop further, taking into account the content of points 1 and 2.
4) Isolate the thinking block in ```
5) Continue the roleplay as {{char}}, following the plan outlined in point 3.
### Response: (length = extreme)

Аноним 25/11/23 Суб 11:54:26 № 554439 438

>>554371
Интересно, но ты сделал ее слишком сложной. На примерах даже 3b справляется, хоть и не всегда по растоящему думает в этом разделе. Чаще всего дает себе самоинструкцию расширяя мою команду по своему пониманию. Но иногда действительно рассуждает.
Я там кстати еще сильнее упростил промпт и оно все равно продолжило работать, до компа дойду скину

Аноним 25/11/23 Суб 12:15:21 № 554441 439

https://www.reddit.com/r/LocalLLaMA/comments/183bqei/real_talk_70bs_are_way_better_than_the_smaller/
разговоры о качестве больших/малых моделей

Аноним 25/11/23 Суб 12:28:10 № 554445 440

>>554237
>>554247
Ну и что я не так делаю?

Аноним 25/11/23 Суб 12:40:08 № 554451 441

https://github.com/semperai/amica
это то что тут анон проверял? Или у него был аналог для таверны? Выглядит интересно

Аноним 25/11/23 Суб 12:42:36 № 554457 442

>>554445
Все разобрался короче, теперь непонятно сколько слоев надо ставить?

Аноним 25/11/23 Суб 12:43:37 № 554460 443

>>554445
формат поменяй на gguf а ты в ggml сохранил, количество ядер 1 мало, квант жирноватый скачал, но может и запустится

Аноним 25/11/23 Суб 13:02:49 № 554482 444

>>554457
>1 T/S

Аноним 25/11/23 Суб 13:27:28 № 554506 445

>>554371
Супер упрощенный промпт мыслей который сетка подхватывает, не всегда, поэтому в начале нужно смотреть что бы первый ответ был по формату. И лучше отключить новую линию после memory. Это настройка над памятью где весь промпт пишется в кобальде, хз где в таверне.

thinking<As UniAi, I'm excited to embark on this journey as a versatile expert and assistant, eager to contribute my knowledge and skills to various fields. I'm glad the {{user}} is here, I think I'll greet him first. I think he'll like it.>
"Hi! I'm glad you're here!"
{{user}}:Hi Syc
thinking<He's responded. This means I can start our work together. I can ask the Master what he wants from me today. I need to plan my every move and act accordingly. I will try to answer in detail if the situation requires it.>
"What would you like me to do for you today?"

Это тупо весь промпт что нужен, никакого начала и конца не нужно, просто сам пример диалога содержит промпт и пример использования мыслей.
Получилось забавно, но нужно немного допилить. Тут даже имя не нужно бота, остановка происходит на имени пользователя.

Аноним 25/11/23 Суб 13:53:17 № 554526 446

>>554506
Бля кривой недоделок дал

thinking<As UniAi, I'm excited to embark on this journey as a versatile expert and assistant, eager to contribute my knowledge and skills to various fields. I'm glad the {{user}} is here, I think I'll greet him first. I think he'll like it.>
"Hi! I'm glad you're here!"
{{user}}:Hi UniAi
thinking<He's responded. This means I can start our work together. I can ask the {{user}} what he wants from me today. I need to plan my every move and act accordingly. I will try to answer in detail if the situation requires it.>
"What would you like me to do for you today?"

Аноним 25/11/23 Суб 17:22:13 № 554706 447

Где mlewd 20b можно нормально запустить? В колаб нихуя не влазиет, в если влезает то 1 токен в сек

Аноним 25/11/23 Суб 17:24:19 № 554707 448

>>554706
7b запускай там, хоть те же 4km, токена 3-4 даст в секунду

Аноним 25/11/23 Суб 17:50:31 № 554714 449

Второй ответ тупо 1 когерентный ответ сетки где то на 1.5к токенов, гермес могёт

Аноним 25/11/23 Суб 17:53:02 № 554716 450

>>554714
На какой температуре? Что-то у меня шизы во время интенсивного РП, если вы понимаете о чем я.

Аноним 25/11/23 Суб 17:55:32 № 554717 451

>>554716
температура 1, мин-п 0.1, повторы 1, все остальное тоже отключил, ибо и так норм. Если лупится начнет тогда повторов уже добавил бы.

Аноним 25/11/23 Суб 17:57:59 № 554718 452

Аноны, у вас было такое, что ответы, которые генерятся медленнее ощущаются как более качественные?

Аноним 25/11/23 Суб 18:05:44 № 554721 453

>>554445
Не очень то похоже на коллаб из шапки, его открываешь и там тебя 20б трехбитная сразу приветствует и никаким кобольдом и близко не пахнет.

Аноним 25/11/23 Суб 18:32:39 № 554741 454

>>554445
Зачем ты запускаешь колаб кобольда, когда колаб угабоги работает быстрее и уже настроен?

Аноним 25/11/23 Суб 19:09:29 № 554790 455

А теперь представляем что чем то подобным занимаются настоящие специалисты на аналоге гпт-5, а не васян с калькулятором и имитатором хлебушка.
Тут кстати температуры добавил до 1.5, с мин-п норм так.
Писателям фантастики сетки определенно зайдут, хотя и стоит проверять их фантазии на пиздеж.

Аноним 25/11/23 Суб 19:53:20 № 554825 456

>>554790
Хуйта же, просто галлюцинирует типичной сойбойской платиной или говорит очевидные вещи.
> А теперь представляем что чем то подобным занимаются настоящие специалисты на аналоге гпт-5, а не васян с калькулятором и имитатором хлебушка.
Ничего кроме общих советов "делай хорошее не делай плохое" он не скажет. Если же вести более детальную беседу о чем-то конкретном - он будет значительно уступать специалистам в области.
В развитии успешный результат может быть если квалифицированный человек будет использовать ллм для задач обобщения, автоматизации, систематизации и анализа со стороны, все остальное - лишь влажные фантазии шизов или рандом уровня "обезьяна напечатала поэму".
> Писателям фантастики сетки определенно зайдут
Вроде как там уже тренд не меньше чем у художников, хоть и без такого шума.

Аноним 25/11/23 Суб 19:59:54 № 554830 457

>>554825
Ну во первых не хуета, а пример последовательного решения задач сеткой.
Во вторых я и сам сказал что фигня, а вот на что способен топовый ИИ с доступом к научным знаниям, гуглу и еще хрен пойми чему.
Конечно он не будет сам что то исследовать, но помощь специалисту в своей области была бы огромная.
Анализ информации, поиск аналогов, суммаризация и выявление общей идеи.
Самое главное наверное - помощь близорукому специалисту который не в хуй ногой не разбирается ни в чем кроме своей области - сетка находит новые пути решения задач или комбинации разных знаний из других областей знаний, на которые человек специалист просто не способен.

Аноним 25/11/23 Суб 20:04:51 № 554834 458

>>554830
> Ну во первых не хуета, а пример последовательного решения задач сеткой.
Если как пример последовательного мыслеизложения - ок. А задач там никаких не решает и ответ дает неверный, хотя из-за суперабстрактной формулировки это можно простить.
А так подход верный, плюс не стоит недооценивать оценка с другой перспективы, иногда может быть определяющей. Раз уж у тебя тот промт набран - дай ему задачу раскритиковать это и объяснить почему не будет работать, вот такое интересно.

Аноним 25/11/23 Суб 20:10:24 № 554846 459

>>554830
>а вот на что способен топовый ИИ
Самому интересно. Благо их нет, ибо все пердолятся с тупыми трансформерами.
>сетка находит новые пути решения задач
Нихуя она не находит.

Аноним 25/11/23 Суб 20:15:16 № 554852 460

>>554846
Ты просто не знаешь об этом, хех
На такие голословные заявления и я могу, ты не обладаешь информацией о том что там в мире за закрытыми дверями происходит, а что нет.

Аноним 25/11/23 Суб 20:17:04 № 554855 461

>>554834

Аноним 25/11/23 Суб 20:21:29 № 554859 462

>>554834
>А задач там никаких не решает и ответ дает неверный, хотя из-за суперабстрактной формулировки это можно простить.
Ну кстати говоря верность ответа определяю я как тот кто ведет разговор. Сетка делала то что я хотел и имел ввиду, давая себе самоинструкции в контексте моего запроса. Так что она решала поставленные мной перед ней задачи.

Аноним 25/11/23 Суб 20:31:25 № 554863 463

>>554859
>Сетка делала то что я хотел и имел ввиду
То есть ты знал ответ. А раз ты знаешь ответ, то и сетка тебе не нужна.

Аноним 25/11/23 Суб 20:31:35 № 554864 464

Как в силлитаверне заставить работать стоп-лист при подключении к кобальдцпп? Я нормально форматирую json, но ничего не меняется, текст не режется в соответствие со спам-листом. Что может быть не так?

Аноним 25/11/23 Суб 20:34:27 № 554867 465

>>554863
А как еще проверять сетку если ты не знаешь примерный ответ?
Ну и как не нужна, они иногда генерят то о чем я не подумал, вот и пища для новых мыслей

Аноним 25/11/23 Суб 20:41:01 № 554869 466

>>554867
> А как еще проверять сетку
Кстаати, а почему бы не воспользоваться классикой? Если сетка сможет повторять последнее слово и не отвечать на вопрос, при этом можно будет легко менять слово, то она - умная!

Аноним 25/11/23 Суб 20:44:42 № 554873 467

>>554867
>Ну и как не нужна, они иногда генерят то о чем я не подумал
Что характеризует лишь тебя как не далёкого человека, лол.

Аноним 25/11/23 Суб 20:47:33 № 554874 468

>>554873
недалеким тут выставляешь себя только ты

>>554869
Это уже какой нибудь ии проверять не занялся ли он саморазвитием пока никто не видел, и если ответит не так как надо то сносить

Аноним 25/11/23 Суб 20:48:13 № 554876 469

>>554855
Что за сетка? Что-то она немного залупилась по структуре, такое вообще у многих бывает после появления первого ответа с пунктами и обобщением.
Вообще запрос неудачный предложил, в том смысле что нужно чтобы сетка сделала анализ с разбором по частям и выявлением слабых частей или допущенных ошибок, а не дала листинг базированных проблем. Если тебе не лень и интересно то попробуй такое запустить, только формулировку нужно подобрать. Хочется увидеть какой-то креатив и разнообразный подход а не пункты ради пунктов.
Если этот ответ разбирать то 1, 3, 4 в одну бы объединить, базированные кожаные проблемы, которые являются следствием более глубокой, а 5 ерунда какая-то.
Алсо ризонинг бы как-то прокачать чтобы он был не бесполезным плейсхолдером в таких задачах, а вмешивался в промежутках давая улучшение.

Всеже слишком абстрактный вопрос и сетки не догоняют что нужен нормальный технический ответ а не базированная затычка для нормисов по популярным трендам, нужно точнее формулировать.

Аноним 25/11/23 Суб 20:49:23 № 554878 470

>>554874
>недалеким тут выставляешь себя только ты
Тупее тупой сетки ты, а недалёкий я?

Аноним 25/11/23 Суб 20:50:04 № 554879 471

>>554878
хорошо что ты это понял

Аноним 25/11/23 Суб 20:57:04 № 554885 472

>>554876
Прогнозы неплохие, но присмотрись - сетка в моем запросе учитывает какие технологии наиболее эффективно изучать в каком порядке, для того что бы ускорить развитие других технологий. А не просто статичный список не учитывающий влияние предыдущих.
Это кстати обычный openhermes-2.5-mistral-7b.Q8_0
Вот еще вариант ответа например, другой вопрос надо еще сформулировать.
Ну а мысли, да, не завелись так как надо. Но, перевод и самоинструкции все равно довольно удобны. А рассуждает она в тексте

Аноним 25/11/23 Суб 21:08:51 № 554900 473

image.png 70Кб, 1164x423

Ору, походу обиделась на сомнения и закибербулила меня

Аноним 25/11/23 Суб 21:26:27 № 554911 474

>>554876
Ну как то так, последний ответ опять на 1.5к токенов

Аноним 25/11/23 Суб 21:30:06 № 554912 475

1599269964923.png 894Кб, 1169x4315

>>554885
> учитывает какие технологии наиболее эффективно изучать в каком порядке, для того что бы ускорить развитие других технологий
Ну это же ерунда с какой стороны не посмотри, если только ты не играешь в циву, лол. Как по самой концепции, так и по результату.
> Но, перевод
Вот тут кстати да, но рассуждений не завезли особо, тут просто расписывает пункты.
Не, модели слишком тупые для такого или там нужен ебать какой промтинженеринг или настроение. Так-то даже гопота фейлит переключиться на то что подразумеваешь, а напрямую направлять - ну не.

Аноним 25/11/23 Суб 21:32:10 № 554919 476

>>554879
Плохо, что ты в сарказм не можешь.

Аноним 25/11/23 Суб 21:34:25 № 554924 477

>>554912
Да кстати нельзя не отметить что анти-буллщит в промте сразу подрезает всякие "суперзеленые энергетики" в ближайшем будущем и отодвигает нормально сформулированную "энергетическую проблему" в более дальнюю перспективу. Даже про топливные ячейки и атомную энергетику начала базарить а не хероборину с РЕНЬЮВЕБЛ СОРСЕС СКОРО СКОРО.

Аноним 25/11/23 Суб 21:53:43 № 554951 478

>>554912
>Ну это же ерунда с какой стороны не посмотри, если только ты не играешь в циву, лол. Как по самой концепции, так и по результату.
Это не ерунда, конечно на сколько там список хорош вопросы, но основную идею сетка родила - искусственный разум который ускоряет создание новых технологий - более быстрая основа для вычислений для этого ии и людей специалистов - новые технологии создания вещей и материалов для ускорения воплощения в реальность новых вещей - бесконечный источник энергии который не построить без точных расчетов и новых методов производства, далее примерно так же.
Вполне неплохой список. Ну а пункты только те что я ей предложил или попросил добавить на выбор. Так можно было бы детализацию списка сделать еще сильнее.

>Не, модели слишком тупые для такого или там нужен ебать какой промтинженеринг или настроение. Так-то даже гопота фейлит переключиться на то что подразумеваешь, а напрямую направлять - ну не.

Тупые по сравнению с чем, хех. Вполне неплохой результат на данный момент, дальше сетки будут лучше. Пообщайся я с такой штукой год назад я бы охуел от новых технологий, особенно узнав что они запускаются на моём пк локально.

Аноним 25/11/23 Суб 22:08:51 № 554964 479

>>554951
Оторванная от реальности и безсмысленная система, абстрактное развитие ради развития в неведомом направлении и без цели, вот в чем суть. Просто неоформленная и гиперупрощенная концепция, которую можно случайно спутать с околофилософскими вопросами развития человечества в общем, путь в ложном направлении в которое "веришь" и так далее.
То что сетка тебя понимает (маловероятно) или галлюцинирует в примерно том же направлении (похоже на то) это забавно, но единственный юскейс это развлечения любителей подобного.
> Тупые по сравнению с чем, хех
Не могут отойти от концепции QA с выдачей "правильного" ответа и супердефолтного алгоритма отработки запросов. Хотя это решается рп промтом и переводом в фомат беседы в таверне, сразу начинает без проблем переключаться а не спамить анализом пунктов из начала.

Аноним 25/11/23 Суб 22:42:10 № 554988 480

>>554964
>Оторванная от реальности и безсмысленная система, абстрактное развитие ради развития в неведомом направлении и без цели, вот в чем суть.
Не, я просто не показал весь контекст беседы, там обсуждалось терроформирование и нужные для него технологии, а потом спросил наиболее эффективную очередь их развития. Так что сетка норм отвечала в пределах контекста

Конечно сетка могла бы углубится в тему и выдавать что то поумнее, но я решил проверить как она с большими текстами манипулирует и кучей пунктов, и вполне доволен.
Не ожидал что гермес разговорится на такие полотна

Аноним 25/11/23 Суб 23:34:13 № 555046 481

>>554988
> решил проверить как она с большими текстами манипулирует и кучей пунктов, и вполне доволен
Какой там контекст к тому моменту уже накопился? Вообще офк уже это для 7б те еще чудеса.

Алсо по поводу Yi, пустил capybara-tess-yi-34b-200k.Q8_0.gguf с полотном на 64к из той книги. Надо отметить что она уже смогла то на чем фейлили другие - восприняла инструкцию из начала за которой шел огромный текст, в конце не было подсказок. Но ответы не сильно описательные.

> ASSISTANT: You are Siri Keeton, a Synthesist on board the starship Theseus. As part of your mission to investigate extraterrestrial life forms, you and three other crew members have been sent into Rorschach, an alien artefact orbiting Big Ben, a gas giant in the Oasa system. The artefact is filled with high-energy fields that are causing hallucinations and disorientation among the crew.
> Throughout the text, there are references to various concepts and theories, such as the Chinese Room Hypothesis, game theory, and multiple personalities. It also mentions the existence of vampires, which seem to be a genetically modified or evolved form of humans with certain predatory instincts. The story is set in a future where technology has advanced significantly, including the ability to communicate with artificial intelligence and manipulate one's own brain structure through surgery.
> The text does not provide specific details about the world outside the ship, but it can be inferred that Earth is facing an interplanetary crisis due to the arrival of extraterrestrial life forms known as Fireflies. The mission of Theseus is to investigate these Fireflies and their possible intentions towards humanity.</s>
> USER: List all characters and give a detailed info about everyone.
> ASSISTANT:
> 1. Siri Keeton (The Narrator): A Synthesist on board the starship Theseus, responsible for interpreting and simplifying complex information for others. He is a survivor of a radical hemispherectomy due to epilepsy, which has left him with unique observational skills but also caused some social difficulties.
> 2. Jukka Sarasti: The vampire commander of the Theseus crew. He is highly intelligent, efficient, and somewhat detached from human emotions due to his genetic modifications. Despite his predatory instincts, he shows restraint and follows orders.
> 3. Isaac Szpindel: A biologist on board the Theseus with a fascination for vampires. He is socially awkward but has a charming side that helps him connect with others. His expertise lies in understanding biological aspects of alien life forms.
> 4. Susan James (The Gang of Four): A linguist and multiple personality individual, with four distinct personalities - Susan, Michelle, Sascha, and Cruncher. She is responsible for communicating with the Rorschach artefact and deciphering its language.
> 5. Amanda Bates: The major on board Theseus, responsible for combat operations if necessary. She is pragmatic, decisive, and shows great leadership skills during crises. Her background in military training helps her maintain composure under extreme circumstances.
> 6. Robert Paglino (Pag): Siri's best friend from childhood, who later becomes a neuroeconomist. He has a keen interest in vampires and their unique cognitive abilities. His friendship with Siri is based on shared experiences and understanding of each other's differences.
> 7. Chelsea: Siri's girlfriend, a former neuroaestheticist who specializes in altering human brain functions for various purposes such as improving compatibility or changing tastes in music or cuisine. She is attracted to Siri due to his unique perspective on life and relationships.
> 8. Helen (Siri's Mother): An Ascendant living in Heaven, an advanced virtual reality environment where she has omnipotent control over her surroundings. Her relationship with Siri is strained due to past conflicts and misunderstandings about his father's absences during childhood.
> 9. Jim Moore (Siri's Father): A highly skilled intelligence agent who often goes on secret missions, leaving Helen and Siri behind. He has a deep understanding of the world and its complexities but struggles with expressing emotions or building relationships.
> 10. Rorschach: The alien artefact orbiting Big Ben, which communicates using high-energy fields and displays signs of growth and self-replication. Its true nature and intentions remain unknown throughout the story.</s>

Реквестирую текст и что там проверить на 100-200к, а то с этой книгой грустновато.

Аноним 25/11/23 Суб 23:42:53 № 555055 482

А как убрать сою и бонды на файнтюнах? А то включил рп модель а она мне про мутюал респект и бонд между нами затирает.

Аноним 25/11/23 Суб 23:43:08 № 555058 483

А насрать свой собственный текст по краткому описанию оно может, или только по тексту саммари может срать?

Аноним 25/11/23 Суб 23:44:48 № 555059 484

>>555046
>Какой там контекст к тому моменту уже накопился? Вообще офк уже это для 7б те еще чудеса.

К 8к добирается, больно уж быстро юольшие ответы контекст жрут. Но я запускал с ропе 20000, и контекстом кажется до 12к.
Сам удивлен, привык что сетка скупо отвечает. Но изменив промпт и добавив туда простую строчку типа "I will try to answer in detail if the situation requires it." получил нормальные такие ответы.
Хотя пришлось потыкать в начале что бы сетка считала нормой отвечать развернуто.

>capybara-tess-yi-34b-200k.Q8_0.gguf
да бля опять новая модель

> Но ответы не сильно описательные.
Думаю из-за направленности сетки, она же вроде как математически-научная, ну и промпт может повлиял.

Короче 34b радуют, особенно комбинацией неплохие мозги- огромный контекст.

Аноним 25/11/23 Суб 23:47:53 № 555063 485

>>555059
Так 8к - это же мало, не?
мимо ньюфаг

Аноним 25/11/23 Суб 23:50:27 № 555065 486

>>555063
Ну, без плясок с бубном норм работает только 4к, к 7.5к сетка уже отвечает хуже или ломается.
Так что поставив 12к я ропе удвоил, что бы сетке ничего не мешало работать до 12к

Аноним 26/11/23 Вск 00:06:27 № 555073 487

>>555055
cfg и негативный промт, или в основном сочинять конструкции. Если в нем сейчас непойми что то стоит для начала хотябы из пресетов поставить, может само уйдет.
>>555058
Все может
>>555059
Надо будет их в относительно прикладных задачах потестить, а то ведь в видюху без выгрузки может помещаться и шустро работать. И в рп, мало ли. Вот тут интересно что там на малых контекстах, вроде как тренилось уже с огромным значением роупа, если его снизить как для ллам по дефолту это улучшит перфоманс или наоборот всрет.
>>555063
Смотря с чем сравнивать.

Аноним 26/11/23 Вск 00:26:12 № 555087 488

>>555073
https://huggingface.co/brucethemoose/Capybara-Tess-Yi-34B-200K-exl2-4bpw-fiction
описание порадовало, использовался не вики тест для калибровки
для бояр с 24гб врам

Аноним 26/11/23 Вск 00:32:22 № 555091 489

>>555087
> This should hopefully yield better chat performance than the default wikitext quantization.
Да че там, просто значения в калибровочных файлах сравнить и все, хули тут гадать.

Аноним 26/11/23 Вск 00:36:03 № 555094 490

>>555091
Я думаю эти ребята понимают больше в теме которой занимаются, чем рядовой анон

Аноним 26/11/23 Вск 00:57:06 № 555114 491

>>555094
> хуяк хуяк и в продакшн
> абстрактные рассуждения о том что может быть а может не быть вместо аргументации
> не показано сравнение и отличия от другой оценки
> This should hopefully
И на что они рассчитывают против кадровых анонов, прошедших бондонаполненные точки, лол. Не отрицаю их подход, нужно исследовать и выяснять, просто такие выводы о компетенциях на грани кринжа.

Аноним 26/11/23 Вск 01:03:09 № 555118 492

>>555114
Если спец который этим занимается так пишет, то он не уверен в результате.
Значит способов просто проверить его - нет.
Значит нужно просто пользоваться сеткой и смотреть по своему опыту использования, на что он и надеется.
В теории калиброваная таким образом сетка должна отличаться от калиброванной викитекстом.
Ну а проверить это дело могут только обладатели больших карточек, так что ждемс

Аноним 26/11/23 Вск 01:11:09 № 555126 493

>>555118
> Значит способов просто проверить его - нет.
> Сравнить калибровочные файлы
Действительно нет, о да, нужно устраивать теории, гадать, нюхать плацебо.

> В теории калиброваная таким образом сетка должна отличаться от калиброванной викитекстом.
Как раз в теории там отличия должны быть незначительные, что-то унюхать "на практике" только на 2.5 битах при прогоне на исходном датасете. Больше может сыграть то что он калибровал на большом размере, но тоже под вопросом.

Аноним 26/11/23 Вск 01:17:41 № 555128 494

>>555126
>Действительно нет, о да, нужно устраивать теории, гадать, нюхать плацебо.
А что кроме факта наличия отличий ты сможешь понять там?
Как ты предлагаешь просто проверить к чему привела такая калибровка, кроме как отдать куче людей на поиграться?

>Как раз в теории там отличия должны быть незначительные,
А вот и нет, скорей всего сетка сейчас получила легкий уклон в фантастику или чем он там калибровал. Токены фантастики и диалогов должны быть лучше квантованы в среднем. Вопрос конечно на что это повлияет, и как сильно. Может разница в несколько процентов, хз

Аноним 26/11/23 Вск 01:25:41 № 555129 495

>>555128
> А что кроме факта наличия отличий ты сможешь понять там?
Посты не читаешь?
Перед тем как будучи одержимым жаждой поиска невероятных открытий лезть "тестировать" нужно понять возможны ли вообще какие-либо отличия в принципе. Также, помимо калибровки, квантованная модель должна показывать различный характер зависимости перплексити от размера кванта при оценке на разных датасетах.
> скорей всего сетка сейчас получила легкий уклон в фантастику
Если хочешь утверждать - давай обоснования что за этим стоит и подкрепи объективными результатами.

Аноним 26/11/23 Вск 01:31:28 № 555131 496

>>555129
> скорей всего сетка сейчас получила легкий уклон в фантастику

>Если хочешь утверждать

Алё гараж, если хочешь приплетать то не приписывай мне свои фантазии. А если ты утверждаешь что
>что-то унюхать "на практике" только на 2.5 битах при прогоне на исходном датасете.
то давай вперед.

>давай обоснования что за этим стоит и подкрепи объективными результатами.

>различный характер зависимости перплексити от размера кванта при оценке на разных датасетах.
Анон тут проверял викитекст и какой то другой датасет на куче квантов exl2 недавно.
И хотя викитекст показала минимальное отклонение, другой датасет отклонился по перплексити на 3 единицы. Что это означает подумай сам.

Аноним 26/11/23 Вск 01:43:33 № 555138 497

>>555131
Ну ахуеть, перечитай ветку и пойми что пора принять таблетосы а не агрессировать. В самом начале высказал скепсис без отрицания возможности и представил элементарный и очевидный способ проверить есть ли вообще что-то, а ты в ответ начал его отрицать, предлагая культивацию плацебо. Рассуждения почему это сильно не должно ролять выше по треду, а у тебя просто пастулирование.
> другой датасет отклонился по перплексити на 3 единицы
Про относительные изменения слышал? И тот датасет по дефолту довольно поломанный, нужны разнообразные чтобы изначально корректно работали и были разнонаправленными, а не PTB в котором большей частью шиза
> aer banknote berlitz calloway centrust cluett fromstein gitano guterman hydro-quebec ipo kia memotec mlx nahb punts rake regatta rubens sim snack-food ssangyong swapo wachter
> pierre <unk> N years old will join the board as a nonexecutive director nov. N
> mr. <unk> is chairman of <unk> n.v. the dutch publishing group
> rudolph <unk> N years old and former chairman of consolidated gold fields plc was named a nonexecutive director of this british industrial conglomerate
> a form of asbestos once used to make kent cigarette filters has caused a high percentage of cancer deaths among a group of workers exposed to it more than N years ago researchers reported
> the asbestos fiber <unk> is unusually <unk> once it enters the <unk> with even brief exposures to it causing symptoms that show up decades later researchers said
> <unk> inc. the unit of new york-based <unk> corp. that makes kent cigarettes stopped using <unk> in its <unk> cigarette filters in N

Аноним 26/11/23 Вск 05:16:23 № 555186 498

А какой положняк треда по настройкам сэмплера?

Аноним 26/11/23 Вск 07:38:27 № 555221 499

image.png 46Кб, 862x327

>>554706
>В колаб нихуя не влазиет
Чел... скорость около 10 токенов

Аноним 26/11/23 Вск 08:57:38 № 555234 500

>>555087
Я чёт не понял, её всё равно с альфой надо? Потому что даже 20к влезают с трудом

Аноним 26/11/23 Вск 09:27:53 № 555244 501

ПЕРЕКАТ

>>555242 (OP)

>>555242 (OP)

Шапку потом перекачу на новый сервис, пока так полежит

Аноним 26/11/23 Вск 17:35:57 № 555623 502

>>554707
7b модели на домашнем пека на средненьком процессоре типа i5 10400 3-5 токенов в секунду выдают. Смысла ради такой скорости с онлайном связываться нет.

Аноним 27/11/23 Пнд 18:32:40 № 556782 503

>>555221
Это 3b квантование? Какую то шизу выдает, совсем как будто другая модель в отличии от 20б

Назад Вверх Каталог Обновить