HRM vs LLM
Надибав інформацію, що маленька Hierarchical Reasoning Model на 27 мільйонів параметрів розгромила велику універсальну модель з трильйоном параметрів... в якомусь судоку...
Потім розібралися.... наскільки я зрозумів, модель була натренована не на нові задачі, як усі нормальні LLM... а просто дуже добре вирішувала старі задачі...
........
У зв’язку з чим питання до експертів... образно... якось так:
Замість того, щоб нарощувати потужності, оперативну пам’ять і т.д. для роботи LLM — щоб модель була універсальною і вирішувала будь-які задачі...
... чи не простіше/дешевше скласти список із двох тисяч типових задач, які закривають 99% потреб... і ця модель буде працювати на будь-якому пристрої... хоч і не буде так гарно розмовляти 🤔

12 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів