HRM vs LLM

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Надибав інформацію, що маленька Hierarchical Reasoning Model на 27 мільйонів параметрів розгромила велику універсальну модель з трильйоном параметрів... в якомусь судоку...

Потім розібралися.... наскільки я зрозумів, модель була натренована не на нові задачі, як усі нормальні LLM... а просто дуже добре вирішувала старі задачі...

........

У зв’язку з чим питання до експертів... образно... якось так:

Замість того, щоб нарощувати потужності, оперативну пам’ять і т.д. для роботи LLM — щоб модель була універсальною і вирішувала будь-які задачі...

... чи не простіше/дешевше скласти список із двох тисяч типових задач, які закривають 99% потреб... і ця модель буде працювати на будь-якому пристрої... хоч і не буде так гарно розмовляти 🤔

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
чи не простіше/дешевше скласти список із двох тисяч типових задач, які закривають 99% потреб... і ця модель буде працювати на будь-якому пристрої... хоч і не буде так гарно розмовляти

так головне питання не в тому, щоб розв’язати ті 99% задач, а щоб модель грамотно зрузуміла що від неї хочуть ці «кожані мішки» )

техніка повинна приносити користь людям... а не навпаки

Майже впевнений що так воно і буде, але не зараз. Ллм крута річ — алеж скільки вона ресурсів жере. Доречі я про це казав ще роки три тому, на цьомуж доу. І що у відповідь? Ні! Вигадник, так небуває! Так буває, але є загальний тренд, і більшість від нього відійдуть тільки тоді — коли це вже не буде тренд.

Вузькоспеціалізовані моделі не зможуть як LLM зрозуміти кривопоставлений ТЗ

а те, що LLM (та і взагалі інтернет) потрібні всюди — хіба не є кривопоставленим ТЗ ? )

Будь яку модель можна навчити розуміти «криво поставлені ТЗ» і адаптувати їх у коректний формат. Власне саме так і тренуються майже всі LLM. Для цього використовуються prompt template для підготовки навчальних даних. При розробці нашої моделі, кеоманда тиждень придумувала всілякі «неадекватні запити» і потім ми вчили розуміти нашу модель, що саме хотів сказати користувач. Доволі веселе завдання, але по факту зверніть увагу який відсоток «адекватних» ТЗ навіть на тому ж фрілансі

Саме так працює модель, яку розробила моя компанія і це дійсно виправдовує себе

А десь є якісні публікації на цю тему почитати?

почалося з того, що я побачив цей ролик, що зверху (до речі, якщо перейти на ютуб, там він перекладений)
.......
на цей час вже розумів — якщо відмовитися від бажання спілкуватися з моделлю природною мовою — можна в десятки і сотні разів зменшити потребу у ресурсах...

часто спадає на думку — хай би модель знала не все (була менш універсальною), але менше відволікалася на різну фігню... тобто хочеться більшого контролю... спеціалізації...

хай не так гарно розмовляє, але щоб по темі.. і щоб влізла у ноутбук...
...............
спочатку я загуглив по словам

Hierarchical Reasoning Model

потім у пошуку ютубу знайшов пару десятків роликів...
........
ось що видно — практично уся інформація — 5-6 місяців тому... нової нема...
хоча ні... там у них наче з’явилася ще менша модель TRM
..........
але я вже подумав... назви назвами... але:
— в основі цих штук лежать загальновідомі алгоритми... та їх комбінації...
— код опублікований ... можна дослідити... хто вміє...
...........
ну тобто... зроблена ця маленька модель добротно... але нічого революційного там нема...
просто ця модель не розмовляє, як ллм, а зосереджена на вузьких задачах...
...........
ще я запхав посилання на ролики в ютубі в notebooklm.google.com
зробив оглядовий відеоролик... не знаю як відкрити доступ
............
тут багато чого залежить від настрою і можливостей дослідника...
знімати хату, купляти... чи збудувати з нуля...
так само і з цими програмами...

Так. Багато досліджень є на цю тему, хоча вони переважно англійською. Зараз пошуковики перестали видавати інформацію на тему побудови власних моделей. Мабуть хочуть, щоб нових розробників не з’являлось. Раджу долучитись до AI спільноти на deeplearning, там дуже багато цікавого можна дізнатись. Мені дуже допомогла інформація з цієї спільноти. Завдяки їй, я зробив першу виключно українську LLM з нуля. Правда то було ще у 2022 але думаю там все ще цікаво

Підписатись на коментарі