Llama, GPT, Claude — а якою LLM користуєтеся ви?

Заперечити стрімкий розвиток ШІ складно: іноді видається, що компанії змагаються одна з одною у своїх релізах. Лише трохи більше ніж за тиждень стало відомо про реліз Llama 3,1 405B і GPT-4o mini. Досить часто новинами про Claude тішить й стартап Anthropic.

Багато розробників помічають, що їхня робоча рутина змінюється з появою LLM.

І водночас залежно від розвитку різних моделей розробники змінюють свої смаки в них.

А якій LLM віддаєте перевагу ви?

1%
24%
66%
9%
👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

1. Використовую Github CoPilot для розробки, ChatGpt 4o для повсякденної рутини.
2. Чисту LLM для розробки використовувати незручно, спеціалізовани fine tuned моделі як CoPilot працюють значно краще.
3. Дуже рекомендую ознайомитись з цім дослідженням Intellias
explore.intellias.com/...​productivity cookbook.pdf

втомився виправляти LLM та не скріню всі їхні помилки, це лише остання бесіда, на якій LLM якусь дивну чергу неправильних відповідей генерив та постійно вибачався

imgur.com/a/iDB8Fn4

p.s. хоча і користуюсь chatGPT, Claude, Gemini, але хайп навколо них досі залишається для мене великою загадкою

Гуглівський Бард-Геміні, по-моєму, найслабший з усіх LLM продуктів, галюцинує більше, ніж всі інші разом взяті.

Погоджусь з іншим відповідачем, Геміні я майже одразу забув, він не здатний на адекватну допомогу в роботі. З чат жпт було щось схоже що ви кажете, коли вона постійно пише щось зайве, або не те і вибачається в наступному повідомленні. Клаудом задоволений як слон!

Іронічно що гугловська опенсоурсна модель (gemma2 9b) одна з найкращих із опенсоурсних свого розміру і навіть краща багатьох на більших моделей. По крайній мірі на моїх запитах. Але, найбільш зацензорена.

Дайте приклади, бо це все лайно собаче. Перше враження від гпт, клоду та інших ллмок дійснов вау, але дуже швидко ти вже більше негодуєш від їх тупості ніж отримуєш користь, особливо у прикладних задача, а не на рівні розкажи казочку.

Бо ними потрібно вміти користуватись! А не зразу приймати такі висновки.

На вскидку:

1. Заміна гугла в 90% випадках, стековерлоф в 100% випадках (одного цього достатньо щоб не говорити що «лайно собаче»)
2. Аналіз даних, фоток
— документи
— медичні аналізи
— кт скан зубів, ренгени
— даних із смарт вагів
— тренувань записаних смарт годинниками
— підрахунок калорій (сфоткав упаковки інгредієнтів, вказав вагу скільки чого використав, хоча він і по фотці вагу непогано прикидає)
— пошук товарів (сфоткав якусь річ в магазині, і кажеш де знайти в інтернеті дешевше, розпізнає і знаходить, не завжди звісно)
— тощо
3. Будь-які роботи з текстом: написати, переписати, відформатувати
4. Кодінг: автокомпліт, написання сніпетів, скриптів, рефакторинг (збоченням попросити написати тести щоб пожалітися що погані тести написав і значить АІ говно — не займаюсь, хоча на питання типу «як з допомогою FluentAssertion перевірити що всі об’єкти в колекції мають проперті яке задовольняє певній умові» відповідає на ура (раніше довелось би документацію курити))

Так ти приведи приклади «лайна собачого». Тільки реальні приклади, відповіді на які тобі знадобилися в реальному житті, а не надумані щоб підловити чи хакнути ллм знаючи про її обмеження.

Я ловив багато раз неіснуючі функції або бібліотеки. Помилкові алгоритми розрахунку в NDCG на Python, вибачення та зміни з ще більшими помилками.
Що цікаво, новий чат без історії і коректний алгоритм видало.
Я юзав саме чат ГоПоТи.

Копілот стоїть в IDE. Як в штормі так і в адроїд студії. В більшості гарно підказує та доповнює. Але інколи також може неіснуючі ф-ції генерити.

Буває, особливо якщо спитати як з допомогою ABC (якась маловідома тулзовина чи бібліотека, про яку він не знає, чи взагалі видумана тулзовина) зробити он це", замість того щоб сказати що не знає таку бібліотеку, починає прикидуватися що знає і вигадувати її інтерфейс (інколи досить подібний до речі). Це слабке місце всіх llm, by design. Саме тому існує prompt engineering, так як від якості промту залежить відповідь.

Ну а копайлот в проекті вигадує, тому що робочий контекст малий, і якщо RAG підсунув llm ліві куски коду з яких можна було б зліпити автокомліт, вона починає додумувати або ліпити на основі того що їй підсунули. Тому, тут або модель на проекті тюнити (досить затратна по часу і потужностям задача яка має лінійну залежність від розміру проекту), або чекати поки робочий, вхідний контекст в llm стане більшим (саме робочий а не те що декларують, так як те що декларують немає нічого спільного з реальністю).

3. Будь-які роботи з текстом: написати, переписати, відформатувати

Завжди було цікаво що буде потім з авторством тексту. Якщо це важливо звісно. Наприклад для автора статті чи книжки це може бути небезпечно.

Ну треба розуміти, що вона не є чарівною паличкою. Пишучи проєкт з нуля, краще робіть це самі, лиш полегшуючи собі роботу по типу написання функцій-хелперів для специфічних задач. ШІ ідеально досягає симбіозу зі мною коли заходить мова про покращення вже існуючого коду, виправлення деяких помилок, рефакторінгу одним словом.

GPT це все в одному, тим більше буде покращений голосовий режим і бачення в реальному часі. Від таких можливостей не хочеться відмовлятись. Можна навіть так розділити, Сlaude для роботи а GPT для повсякденних завдань.

Підписатись на коментарі