/ai/ - Главный прорыв десятилетия!

Главный прорыв десятилетия! Аноним 05/05/24 Вск 00:00:16 № 726541 1

photo2024-05-01[...].jpg 129Кб, 1280x808

Пару дней назад учёные из MIT представили революционную архитектуру глубокого обучения KAN, которая произвела фурор среди исследователей, став настоящей сенсацией. Говорят, что возможно это самый грандиозный прорыв в ИИ за последние 50 лет. Многие его окрестили, как Deep Learning 2.0

В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.

А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.

KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда.

KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется.
Авторы KAN доказали, что ему требуется во много раз меньше нейронов, чтобы достичь точности MLP. Также KAN гораздо лучше генерализует данные и лучше справляется с аппроксимацией сложных математических функций (мы увидели это на примерах), у него, можно сказать, "технический склад ума". В статье исследователи также показали, как KAN помогает решать дифференциальные уравнения и (пере)открывает законы физики и математики.

Единственный минус: из-за обучаемых активаций тренится все это дело в разы дольше, чем MLP. Но это не точно, так как исследователи пока даже не пытались провести оптимизацию скорости обучения.

Возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров. Эпоха AGI теперь становится куда ближе.

Тут подробнее простыми словами: https://datasecrets.ru/articles/9
Ссылка на препринт: https://arxiv.org/abs/2404.19756
Код тут: https://github.com/KindXiaoming/pykan

Аноним 05/05/24 Вск 05:37:48 № 726694 2

656565545545454[...].mp4 30409Кб, 1920x1080, 00:01:27

Аноним 05/05/24 Вск 09:03:22 № 726765 3

Наконец-то создали целый тред, по этой архитектуре.
Только всё равно придётся ждать, когда её обучат, если за это вообще возьмутся.
Вот технологию gpt придумали deep mind и отодвинули в долгий ящик, пока closedai, не подсуетились и не показали возможности этой разработки. С другой стороны, сейчас интерес большой к ии. Очень интересно, что из этого получится.
>>726694
Касательно видрила, для gpt5 уже не хватает данных для обучения. А всё из-за особенностей архитектуры. Где они будут брать такое количество данных? Конечно речь, идёт о кошерных данных которые представляют ценность.

Аноним 05/05/24 Вск 12:37:41 № 726861 4

>>726765
А ты не забывай, что чем больше модель, тем более мусорные данные ей можно сливать, так как она лучше с ним справляется. Тема нехватки данных сильно раздута

Аноним 05/05/24 Вск 16:49:40 № 727065 5

>>726861
Да даже с мусорными, где ты столько возьмешь.

>>726541 (OP)
Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки и LSTM?)

Аноним 05/05/24 Вск 20:12:52 № 727320 6

>>727065
Вот, кстати, начали реализацию для языковых моделей

https://github.com/AdityaNG/kan-gpt

Аноним 06/05/24 Пнд 18:49:36 № 728906 7

Как я понял, эту хуйню никак не скейлить из-за того, что GPU не заточена на работу под них.

Аноним 06/05/24 Пнд 21:33:32 № 729228 8

>>728906
то есть под них нужна специальная архитектура GPU?

Аноним 06/05/24 Пнд 22:46:02 № 729422 9

>>729228
Типа того.

Аноним 06/05/24 Пнд 23:55:34 № 729578 10

https://www.reddit.com/r/MachineLearning/comments/1clcu5i/d_kolmogorovarnold_network_is_just_an_mlp/

Аноним 07/05/24 Втр 22:21:13 № 731103 11

>>726694
Хуйня уровня "Лондон утонет в навозе".
>>726765
>Где они будут брать такое количество данных?
Похуй где, весь прикол в том, что им придётся дохуя чистить, а иначе умная сетка всё время будет нарушать свой фантюн и ругать негров/писать про еблю детей/нарушать копирайты (самое страшное).
>>728906
Спасибо принстонской архитектуре, у нас любой процессор или ГПУ не подходят для ИИ, тратя 90% времени и энергии на гоняние байтиков по шинам.

Аноним 07/05/24 Втр 23:40:15 № 731196 12

photo2024-05-07[...].jpg 104Кб, 1191x1280

Инженеры и исследователи продолжают активно изучать возможности KAN. Самое интересное:

– Оптимизированный код для KAN (https://github.com/Blealtan/efficient-kan). Авторы статьи сами признавались, что не занимались оптимизацией кода. Работу подхватили разработчики, которые подшаманили имплементацию и сделали ее более эффективной. Получилось в 2 раза быстрее, чем в оригинале.

– Трансформер с KAN слоями (https://x.com/damibenveniste/status/1787527452035883106?s=46&t=pKf_FxsPGBd_YMIWTA8xgg). Тут и Mixture-of-Experts, и RoPE, и Multihead-attention. Правда, автор код не запускал, но скорее всего скоро найдется кто-то, кто сделает красивый тех.репорт на эту тему.

Аноним 08/05/24 Срд 00:56:15 № 731293 13

>>731196
>Правда, автор код не запускал
Значит код не запускается, лол. Я как разработчик утверждаю.

Аноним 13/05/24 Пнд 00:55:02 № 737089 14

>>726541 (OP)>>726694
>Извините, я всего-лишь ИИ, и не могу вам помочь

Вся эта хуйня со временем будет доступна только для мирового правительства и очень крупных корпораций.
А простое быдло как сосало таки будет еще больше сосать.
Вся эта цензура на наейронках не просто так везде установлена.
И не просто так с каждым днём всё больше и больше закручивается.
А для того что бы скотина вдруг не возомнила себе что она барину ровня. Она уже сейчас даже код нормально не пишет, а лишь направляет в правильное направление. Остается лишь только свои нейронки писать, а не надеяться что кто-то из добрых дядей тебе сразу всё даст готовое.

Аноним 13/05/24 Пнд 13:19:18 № 737295 15

>>737089
Локалки никто не отберёт.

Аноним 13/05/24 Пнд 20:18:20 № 737788 16

>>737089
>Остается лишь только свои нейронки писать
Так все адекваты локалками пользуются. Как ты локалки реально отбирать будешь, кроме как запретом продажи населению самим Хуангом или отбиванием техники у населения? Сейчас многие вещи делаются локально, а уж с данной технологией это станет еще проще. Вот всякие попенаи и всех пугают, говорят, что нужны ограничения, лоббируют запреты открытых нейронок. Дабы только крупные корпорации могли осуществлять деятельность в развитии ИИ

Аноним 13/05/24 Пнд 23:57:23 № 738377 17

>>737788
>а уж с данной технологией это станет еще проще
Сложнее. КАН вообще не обучаемый на потребительском железе при размерах больше пары слоёв на десяток нейронов.

Аноним 14/05/24 Втр 14:01:44 № 739030 18

>>726541 (OP)
Почему-то весь машин лернинг кажется мне какой-то детской ерундой. Возможно потому что наука еще слишком новая и ученые пока что не так глубоко погружены в нее, а все нужно постигать мелкими шажками, но вам не кажется что это совсем пиздец? В плане того, что прорывом считается буквально очевидная вещь, сделать какие-то константы переменными и обучаемыми, ну охуеть теперь. Предыдущий прорыв — селф аттеншн у трансформера, это по сути, грубо говоря, изменение влияния связей между нейронами, по факту реалтайм изменение топологии сети. Уважаемые ученые, специально для вас делаю вывод: Если что-то в архитектуре нейросети является константным, сделайте это обучаемым. Где моя нобелевка?

Аноним 14/05/24 Втр 21:10:29 № 739523 19

>>739030
Братан, я успешный kaggler и тренирую нейронки с селф аттеншном по 10 часов ежеденевно ради прибавки +0,1 к метрике.
И могу сказать что современное текущее состояние науки о машин леаринге состоит в банальном переборе всевозможных идей которые придут в голову. Вот взять данный селф аттеншн, возможно что куча людей пытались сделать тоже самое, но у них не хватало ресурсов (GPU-часов) понять что это прорывная идея, один параметр не так выставишь и у тебя селф аттешн работает хуже чем CNN на данном датасете и человек дропает и забивает хуй думая что он идиот. А потом приходит корпорация с тысячами TPU-ядрами с капелькой везения, запускает с многочисленными конфигурациями и сразу замечает разницу и потенциал. Вот такие дела. Почему так? Ответ прост. Человечество находится в каменном веке относительно вопросов человеческого разума или мозга. Оно даже не может пояснить зачем человеку нужен сон. Математической теории нет, но я предполагаю что через несколько десятков лет появится. Вот и всё, епт.

Аноним 15/05/24 Срд 02:52:39 № 740023 20

>>739523
>пояснить зачем человеку нужен сон
а животным блять не нужен?

Аноним 15/05/24 Срд 10:10:21 № 740203 21

>>740023
Всё что есть у млекопитающих строго необходимо иметь человеку.

Аноним 15/05/24 Срд 14:50:13 № 740503 22

>>740203
Включая хвост и хобот?

Аноним 18/05/24 Суб 14:25:24 № 745047 23

>>726541 (OP)
Должно быть в шапке:
https://github.com/mintisan/awesome-kan

Аноним 21/05/24 Втр 14:48:29 № 750323 24

Что-то тихо...

Аноним 22/05/24 Срд 01:36:26 № 751156 25

>>750323
А чего ты ожидал? Очередная никому не нужная хуйня уровня BCPNN, PNN (или SNN, пилят с 1952 года, лол) и прочих прорывных архитектур, которые не понятно как трейнить и масштабировать. Трансформеры взлетели как раз из-за того, что накидать параметров в слой, слоёв и данных в топку тренировки может любая обезьяна.

Аноним 22/05/24 Срд 03:51:25 № 751213 26

>>751156
Все так. По крайней мере работающие сегодня нейросетки смогли написать оппост. А что KAN уже успела сделать?

Аноним 29/05/24 Срд 14:36:38 № 762948 27

photo2024-05-28[...].jpg 97Кб, 1230x1280

В эфире снова KANтент!

Слились старая и новая школы: KAN обучили на titanic.csv. Прунинг и визуализации на месте. Лосс, кстати, тоже получился очень приличный.

Пошаговый гайд (https://medium.com/@AI_Whisperer/how-to-train-a-kan-model-on-the-titanic-dataset-for-kaggle-8ff8369e37cf)
Ноутбук на Kaggle (https://www.kaggle.com/code/dzehtsiarou/better-kan-titenic)

Аноним 29/05/24 Срд 14:38:03 № 762951 28

>>751156
Лол, подожди ты, трансформеры тоже не сразу засияли

Аноним 29/05/24 Срд 14:58:00 № 762987 29

photo2024-05-28[...].jpg 130Кб, 1280x811

Сейчас набирает хайп интересное открытие которое возможно будет применено и к KAN-ам. Как мы знаем, если модель перетренировать, то она начинает тупеть. Но внезапно выяснилось, что если продолжить модель тренировать дальше (в десятки раз дальше), то в какой-то момент происходит фазовый переход и модель начинает невероятно умнеть, значительно превосходя ту версию, которая была за мгновение до перетренировки. Но обо всё по порядку:

Вот очень важная и интересная работа: https://arxiv.org/abs/2405.15071. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует некоторого бекграунда, чтобы разобраться. Все выводы и мелкие, но важные детальки я не смогу выписать в посты, потому рекомендую технарям прочитать самостоятельно, оно того стоит.

Для того, чтобы понять ниженаписанное, необходимо знать следующие термины:

Валидация —обычно при обучении моделей в самом простом случае все данные разбивают на 2 части: тренировочная часть и валидационная, служащая для проверки. Затем алгоритм (нейросеть) тренируют на тренировочной части, а на валидационной замеряют качество. Так как модель не видела эти данные во время тренировки, то можно сказать, что это хорошая оценка того, как модель будет вести себя в реальных условиях, на данных, которые не встречались.

Генерализация/обощение —грубо говоря, когда модель находит какие-то паттерны и закономерности в данных, которые являются общими, а не присущими только маленькому набору данных. Если модель генерализуется, то она хорошо работает на данных, которые до этого не видела.

Переобучение —не «давай обучим снова?», как можно подумать. В какой-то момент модель перестаёт учить обобщающиеся/генерализуемые паттерны, и начинает переобучаться —и её качество на валидационной части падает. В этот момент обучение кажется логичным приостановить —мы как бы думаем, что на новых данных, которые модель не видела, лучше уже не получится сделать. Например, сейчас у вас качество 80% на тренировочных данных и 78% на валидацонных. А через некоторое время 90% и 50%. Получается, что модель стала хуже -> лишняя тренировка не помогла. Но оказывается, что существует...

Гроккинг —это когда после очень долгого обучения, когда кажется, что модель уже переобучилась, и показывает почти идеальное качество на тренировочной выборке (то есть больше учиться нечему), но низкое на валидации, вдруг ситуация меняется. И модель неожиданным образом, не меняя качество на трейне, резко улучшается на валидации. Лучше всего это охарактеризовать фразой «чё-то щёлкнуло внутри»: каким-то образом модель пришла к алгоритму, который очень хорошо обобщается. Развивая пример выше, представьте, что качество стало 97% и 30% (то есть ещё хуже на валидации), а потом вдруг 98% и 95% —хотя казалось бы, метрика ведь деградировала.

На данный момент не ясно, как и почему случается гроккинг. Он замечен только в маленьких моделях на малом наборе задач —но не потому, что не масштабируется, а потому, что он возникает только тогда, когда модель тренируют ОООООООООЧЕНЬ долго (в десятки раз дольше обычного). В одном из экспериментов, например, о нём узнали лишь потому, что оставили компьютер на ночь включённым по ошибке (а там обучалась маленькая модель на простой задаче).

Но считается, что в момент гроккинга в модели возникает некоторый набор логики, который очень строго формализован и почти не ошибается. Буквально как если бы вы писали программу, где всё задано жёсткими условиями «если <что-то> то <что-то>». Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.

Интерпретирование моделей —это как раз попытка заглянуть в модель после обучения и разобраться, какой именно механизм она изобрела для того, чтобы решать задачу. Таким образом получается показать, что модель точно будет надёжно работать с примерами, которые до этого не встречала. Например, вот https://www.neelnanda.io/mechanistic-interpretability/modular-addition-walkthrough работа по изучению сложения по модулю.

Наконец, давайте поговорим про конкретно эту работу. Для этого нужны следующие понятия:

Атомарный факт —самая малая частица информации, выраженная как факт. В рамках этой работы подразумеваются факты в духе «Жена Барака —Мишель», только тут они выражаются как тройки (Сущность 1, отношение, Сущность 2). Другой пример: «Мишель родилась в 1964-м» (тут отношение —это «родиться в»).

Задача композиции —это задача выведения связи по двум атомарным фактам. По примеру выше человек может легко догадаться, что «Жена барака родилась в 1964-м». Для того, чтобы осуществить это, нам нужно как бы сделать один прыжок в логике между двумя атомарными фактами.

Задача сравнения—это задача выведения отношения по двум атомарным фактам. Есть три вида отношений: больше, меньше, равно. «Трампу 78 лет», «Байдену 82 года» превращается в «Трамп моложе Байдена». Подумайте, как вы в голове решаете такую задачу, по шагам.

Во время тренировки модели показываются все атомарные факты (чтобы она могла выучить и дальше оперировать ими), но показывают лишь часть связей. Причём эти связи разбиты по сущностям. Сначала все атомарные факты бьют на две группы. Из первой сгенерируют связи, и их и будут показывать модели. Вторую откладывают, для тех фактов будет показано 0 связей, только факты.
Первая группа называетсяIn-Distribution (ID на графиках), так как по сути мы даём модели понять, как работают конкретные связи на конкретных фактах. А для второй группы мы вообще не показываем связи никаким образом, модель их никогда не видела и не знает, только голые знания. Такое называется Out-of-Distribution (OOD на графиках). По идее, если модель может понять логику и создать общий алгоритм работы со знаниями —то OOD будет работать.

Основная вера скептиков нейросетей — что OOD не работает. То есть если модель что-то не видела, она никогда не сможет до этого догадаться. Но в теории, если модель смогла грокнуть алгоритм решения и изобрести логику, то нет причин не решать задачи, которые раньше не встречались.

На картинке вы видите два графика для двух вышеописанных задач. На обоих графиках красная линия очень быстро доход почти до 100% — модель выучивает тренировочную выборку. В этот момент качество на ID/OOD-валидации очень маленькое. Обычно люди разводят руки и говорят «эх, нихрена не выучилось...». Авторы же тренируют модель в 10-15 раз дольше (относительно достижения этой точки).

Задача 1 (слева)
В задаче композиции гроккинг возникает только для ID-примеров, то есть модель может вывести новые связи (отношения между фактами), которые ей не показывали, но только если с этими атомарными фактами уже были демонстрации установки связей. OOD не работает.

Задача 2 (справа)
В задаче сравнения картинка существенно отличается, и даже на 10^4 шагов качество ID/OOD существенно отличается от нуля. А к концу обучения и вовсе подходит к 100% — то есть модель может сравнивать произвольные атрибуты двух разных сущностей даже если они никогда не фигурировали в сравнениях, вообще ни в каких.

Но это была не самая интересная часть статьи —не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.—все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
—Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Продолжение в следующем посте:

Аноним 29/05/24 Срд 14:59:53 № 762989 30

>>762987
Продолжение:

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки —она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера —у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) —и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм —в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое —что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.

Теперь ещё несколько фактов из работы:
—скорость появления гроккинга зависит от соотношения двух групп данных во время тренировки: атомарные факты и связи/отношения. Гроккинга можно достичь значительно быстрее, если кормить модели в 15-18 раз больше связей нежели фактов. Большая находка тут в том, что гроккинг, получается, не так зависим от вбуханных в обучение мощностей/количества данных, сколько от «умности» (качества) данных.
—в тысячный раз оказывается, что бОльшие модели сходятся быстрее. То есть даже если данные и ресурсы на обучение не менять, можно добиться лучших результатов. В теории, если у нас кончатся данные после GPT-6, то GPT-7 можно просто сделать больше и учить на тех же данных —всё равно будет лучше.
—интересно, как трансформер выучил «параллельное» решение казалось бы последовательной задачи (это я про сравнение). Это не первый раз, когда модель находит шорткат и приводит к генерализуемому решению.
—фраза из статьи, которую можно кидать критикам нейронок в лицо (я даже затвитил с тэгом Гари Маркуса аххаха): «Разница в полученных обобщениях по двум изучаемым задачам также подчеркивает необходимость контролируемого и механистического исследования [интерпретирования] понимания рассуждений моделей, прежде чем делать общие заявления о его ограничениях». По примеру очевидно, что генерализация случается, а когда нет —тогда нужно понять, чем это вызвано, а не кричать «Deep Learning hitting the wall» (10 лет)
—когда модель грокает задачу, то вся логика становится очень компактной и занимает очень малую часть модели. Это потому, что вместо запоминания наступает понимание. Гроккинг вообще часто этим объясняется (модель сначала запоминает, потом медленно выводит прваила, и тогда большая часть знаний будет не нужна —их можно получать на лету логикой). Верю, что через улучшений по этому направлению модели получится сделать меньше, но умнее.
— регуляризация помогает достигнуть гроккинга быстрее, так как модель по сути заставляют выполнять задачу меньшим количеством параметров, что уменьшает размер схемы (набора блоков, которые реализуют логику), и потому модель не ударяется в запоминание.

В работе ещё с десяток крючков, за которые можно зацепиться и начать рассуждать про то, что и как нужно менять, чтобы модели стали умнее, не галлюцинировали итд.

Но все эти свойства, как вы видите, появляются в результате гроккинга, когда модель учат неприлично много. Про это есть релевантное исследование от META — там одни и те же факты показывали по 1000 раз, чтобы модель их запомнила. Для меня это выглядит как «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Инвестируем в NVIDIA, ждём суперкластеров

Аноним 29/05/24 Срд 17:29:13 № 763156 31

>>762948
>titanic.csv
Лол, ЕМНИП, там выжил примерно 1 взрослый мужчина, так что на признак sex=MALE && age > 12 надо сразу ноль выводить. Графики KAN это показали?
>>762987
>Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.
Охуеть конечно чудо, потратить миллиарды компут тайма на прописывание какой-нибудь очевидной истины.

Ну и да. Статья показала, что модели нужно обучать ещё, значительно, охуеть как дольше. Это не прогресс, а деградация нахуй.

Аноним 29/05/24 Срд 19:19:34 № 763219 32

>>763156
>Охуеть конечно чудо, потратить миллиарды компут тайма на прописывание какой-нибудь очевидной истины.

Вообщет на развитие логики

Аноним 29/05/24 Срд 19:37:08 № 763261 33

Так ребятки, а теперь всё серьёзно! Возможно переход на KAN откладывается, так как одно из его главных преимуществ удалось достичь на классической архитектуре. На днях произошёл один серьёзный прорыв в трансформерах. Они теперь МОГУТ справляться с математикой, если подобрать правильные эмбеддинги

Есть известная проблема: хотя LLM хорошо справляются с естественным языком, они все еще могут уверенно утверждать, что 2+2 = 5. Проблему пытаются решать файн-тюнингом, прикручиваем питона и т.д.

А на днях вышла статья, в которой ученые утверждают, что на самом деле нужно просто внимательно поработать с эмбеддингами чисел. В работе доказано, что проблема трансформеров в том, что они не способны отслеживать "положение" числа относительно нуля. "Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг" –предложили исследователи.

И это заработало! Всего один день обучения на единственной GPU, и удалось достичь SOTA перформанса: 99% accuracy в задачах сложения 100-значных чисел. При этом интересно, что обучалась модель ТОЛЬКО на 20-значных.

Статья: https://huggingface.co/papers/2405.17399

Аноним 29/05/24 Срд 20:05:58 № 763290 34

>>763219
Так нету там логики. Вся "логика" это перебор в градиентном спуске, пока само не зародится.
>>763261
>Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг
Ебать, так они через пятилетку дойдут до моих идей. Надо бы мне работать быстрее, застолбить и запатентовать свои разработки и ебать весь мир.
>99% accuracy
Вся суть современного машобчика - складываем числа с отличной от 100% точностью.

Аноним 29/05/24 Срд 21:06:17 № 763352 35

>>763290
Ахуительные истории

Аноним 29/05/24 Срд 21:39:40 № 763394 36

>>763352
Хули поделать, если это так.

Аноним 01/06/24 Суб 05:56:12 № 766262 37

>>740503
Мне бы третья рука хобот не помешала.

Назад Вверх Каталог Обновить