Nvidia випустила AI-модель, яка перевершує GPT-4o та Claude 3.5 Sonnet — без гучного релізу, але з гучними результатами

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Компанія Nvidia представила нову модель штучного інтелекту Llama-3.1-Nemotron-70B-Instruct, яка перевершує продукти OpenAI та Anthropic.

Модель з’явилася на популярній платформі Hugging Face і швидко привернула увагу завдяки високим результатам тестів — 85.0 на тесті Arena Hard, 57.6 на AlpacaEval 2 LC і 8.98 на GPT-4-Turbo MT-Bench, випереджаючи такі моделі, як GPT-4o та Claude 3.5 Sonnet.

Створення Llama-3.1-Nemotron-70B-Instruct включало вдосконалення відкритої моделі Llama 3.1 від Meta за допомогою методів навчання, таких як RLHF (навчання з підкріпленням від зворотного зв’язку людини). Це може сприяти більш природним і контекстуально відповідним відповідям.

Модель має потенціал стати економічно ефективною альтернативою для бізнесу завдяки здатності обробляти складні запити без додаткових підказок чи спеціалізованих токенів. Вона показала себе в демонстраціях, надаючи точні та детальні відповіді, підкреслюючи здатність до глибокого розуміння мови.

Nvidia робить модель доступною для бізнесу через платформу build.nvidia.com із сумісним API, що спрощує доступ до передових технологій AI для ширшого кола компаній. Це відображає тренд на створення кастомізованих моделей, які можна адаптувати до потреб, будь то обслуговування клієнтів або створення складних звітів.

Проте модель має обмеження: її не налаштовано для спеціалізованих сфер, таких як математика або юридичне мислення, де важлива точність. Тому варто використовувати її з відповідними заходами безпеки.

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Це все круто, але ось питання на мілліард доларів:
Чи розганяють інфляцію всі ці хайпові продажі?

ШІ генерація — чи може мати власний цифровий підпис? Просто щоб знали всі — коли згенеровано ШІ чи за допомогою ШІ, а коли хтось щось там видумав з голови.
Такі генерації можна було б навіть рєєструвати і вести журнал.

Точно скажу що кожна ШІ має свій стиль, це те як будуються речення, вибудовуються слова в них... З часом починаєш розуміти де текст написаний людиною а де ШІ.

Я написав про надійну математичну квитанцію, а ви про щось суперечливе, засноване на особистих відчуттях.
До речі, згадалося: у андроідів деяких письменників фантастів, таких андроідів, що дуже схожі на людей, що майже не відрізниш, особливим спеціальним законом було встановлене правило: кожній такій істоті нататуйовувати штрих код чи якусь таку іншу позначку.

Нижче я писав про значне збільшення обчислень для покращення роботи LLM

Конспективно от що пишуть.
Можна зразу на малюночкі там подивитись, вони показують суть методів покращення

How does OpenAI’s o1 exactly work?
www.linkedin.com/...​-7251891703291273216-xmLv

Доречі, вчора попалось відео (www.youtube.com/watch?v=oFfVt3S51T4) на y2b про IDE Cursor — зроблене на базі VSCode з вбудованним LLM. В відео казали що цей LLM може пропарсити всю кодову базу проекту, та стати добрим помічником у написанні коду.
Хтось пробував вже його на практиці?
Може зможете порадити, інщі LLM які спроможні «вивчити» кодову базу проекту, та допомогати на практиці?

а следующее сообщение может быть: «посоветуйте в кого мне теперь свитчануцца»

Я про

Cursor

вже багато чув і планую спробувати. Але ще руки не дійшли поки.

Курсор дуже активно ботами продвигається, більшість хвальонних відгуків написані АІ ботами. Ті хто користувалися, не сильно враженні, кажуть те саме що VSCode з копайлотом.

Доречі, вчора попалось відео (www.youtube.com/watch?v=oFfVt3S51T4) на y2b про IDE Cursor — зроблене на базі VSCode з вбудованним LLM. В відео казали що цей LLM може пропарсити всю кодову базу проекту, та стати добрим помічником у написанні коду.

Курсор це лише VSCode з вбудованим копайлотом (AI помічником, а не гітхабовським копайлотом, но всі вони працюють приблизно так само). Не вміє він парсити і вивчати кодобазу. Звичайний RAG поверх кодобази.

Може зможете порадити, інщі LLM які спроможні «вивчити» кодову базу проекту, та допомогати на практиці?

Немає таких LLM. Це не тривіальна задача «вивчити кодову базу». Треба або обучити модель на кодобазі (що вимагає багато підготовлених даних і обчислювальних можливостей), або дуже розумна модель з величезним контекстом якій можна було б всю кодобазу скормити а не парочку файлів як зараз.

Ти спочатку копайлотом скористуйся, а потім кажи.
Курсор на 10 голів вище копайлота, IDE реально прикольна и зручна.
Всю кодбазу вона автоматично не парсить, але йому можна накидувати в чаті референси до файлів та імплементацій (в копайлоті контекст лише поточним файлом лімітується).

або дуже розумна модель з величезним контекстом якій можна було б всю кодобазу скормити а не парочку файлів як зараз.

це звісно покращить якість, але

Програмний код складається не тільки з слів і виразів на мові програмування.
Кожна функція — це нове «слово», сенс якого програміст бачить з сігнатури та опису (коли є).

І якщо LLM треба для розуміння якусь мінімальну кількість використання у коді, а в реальному проєкті такої кількості не буде, для своїх функцій — то вона буде писати копіпасту.
Також — коли нам недостає якоїсь поведінки існуючої функції — ми чи розширємо її сенси, чи створюємо свою — на основі існуючої.
А для LLM така стратегія написання кода виглядає ще більше недосяжною — для цього треба розуміти «сенс» існуючих «слів», оцінити чого не достає, оцінити який спосіб розширення кращий, і — вписати, дописати того що не вистачає.

В мене i7 5960X, 64Gb RAM, RTX4090 24Gb RAM.
Стягнув модель nemotron:latest через ollama.
Робоча модель віджирає 22Gb GPU RAM, та десь 30 GB RAM.
Працює, як мені залося, швидше ніж та сама llama 70b. Не те щоб швидко, але потерпіти можна.
Спробую її поганяти на яктхось практичних питаннях по программуванню.

не порадите нормальну модельку що здатна перекладати українська <-> англійська?

Якщо 4GB VRAM то DeepSeek Coder V2 Lite Instruct — більш менш перекладає(не зважаючи на те, що це LLM для програмування).

А із більш «тяжкіших» Aya-23 гарно працює з Українською мовою.

Спробуйте ось цю загадку:
Сім сестер знаходяться на дачі, де кожна зайнята якоюсь справою. Перша сестра читає книгу, друга — готує їжу, третя — грає в шахи, четверта — розгадує судоку, п’ята займається пранням, шоста доглядає рослини. А чим займається сьома сестра?

А що це доведе? Як на мене такі питання не мають жодного практичного сенсу.

Якось купили лісорубам японську бензопилу. Зібралися лісоруби в коло, вирішили її випробувати. Завели її, підсунули їй маленьке деревце.
«Вжик», — сказала японська пила.
«О, блін...» — сказали лісоруби.
Підсунули їй товстіше деревце. «Вж-ж-жик!» — сказала пила.
«Ого, блін!» — сказали лісоруби.
Підсунули їй товстелезний дуб. «ВЖ-Ж-Ж-Ж-Ж-Ж-Ж-ЖИК!!!» — сказала пила.
«Оце так, блін!!» — сказали лісоруби.
Підсунули їй залізний лом. «КРЯК!» — сказала пила.
«Ага, блін!!!» — докірливо сказали лісоруби! І пішли рубати ліс сокирами...

«Сьома сестра грає в шахи з третьою сестрою.»

brainly.in/question/11932716

Якщо ці люди взялися вчити логіку, щоб скомпроментувати міць ШІ то це справді вражає.
Так починаються перегони озброєнь.

Ну формально ничего не мешает играть в шахматы самому

А може вона на lichess грає? За скільки дій можна засунути жирафа в холодильник? Ну чесно, як на мене це просто задачі, де треба просто знати відповідь, та бути на одній хвилі з автором. Ніякої практичної користі у тому, щоб використовувати LLM, більше натаскану на такі задачі, я не бачу.

ollama run nemotron:latest
>>> 7 sisters went to a cottage & each started doing a different work
... 1st sister started reading book.
... 2nd sister stared watering plants.
... 3rd sister started cooking.
... 4th sister started playing chess.
... 5th sister started doing crosswords.
... 6th sister started laundry
... What did the 7th sister do?
A clever puzzle!

Since there’s no specific activity mentioned for the 7th sister, we can’t deduce it from the given information. However, I’ll provide a few possible approaches to solve this type of lateral thinking puzzle:

1. **Look for patterns**: Check if there’s a pattern in the activities that could hint at the 7th sister’s task. In this case, the activities seem unrelated (indoor leisure, household chores, intellectual pursuits),
so no clear pattern emerges.
2. **Consider wordplay or trick questions**: The answer might not be a typical “activity” but rather something that plays with the question’s wording or assumptions.
3. **Provide a logical, humorous, or creative response** (since we can’t find a definitive answer):

Given these approaches, here are a few possible responses for the 7th sister’s activity:

* **Logical assumption**: We can’t determine the 7th sister’s activity with the provided information. (The most accurate answer)
* **Humorous take**: The 7th sister went to get help because six different tasks at once were chaotic!
* **Creative response**: The 7th sister was the photographer, capturing her sisters engaged in their various activities.
* **Wordplay**: The 7th sister “went” (as in, left) the cottage, overwhelmed by all the work being done!

Choose your favorite response, or feel free to provide more context if there’s a specific answer you’re looking for!

Ось як відповідає «ванільна» Qwen2.5 Instruct на 32B з квантуванням Q4 K M
«Сьома сестра грає в шахи разом з третią сестрою, оскільки шахи — це гра для двох гравців.»

Поставте те ж саме питання англійською. Як і я це зробив. Цікаво буде порівняти коли всі вхідні співпадуть.

Можна текст, який використали для відповіді, prompt а також температура для LLM?

Що таке

температура для LLM

? перший раз чую цей термін.
Запит який я підсунув nemotron, спочатку мого поста (якщо питання про тест це про це).

github.com/...​lid-parameters-and-values
Креативність моделі, чим вона нижча, тим модель буде відповідати точніше але однотипно, наприклад при температурі 0.7 отримана у мене відповідь відрізнятиметься від отриманої у Вас, а при температурі 0.1 ми отримаємо одинакові відповіді.

Я в більшості випадків використовую LLM для програмування, тому мені треба точність, завжди виставляю 0.1.

Якщо Ви не знаєте що це таке, тоді у Вас значення по замовчуванню, судячи з посилання вище це 0.7, тому є ймовірність, що Ваша відповідь і моя будуть відрізнятись.

Гаразд, з температурою розібрались, а можна тоді спробую текст з Вашого повідомлення:
dou.ua/...​rums/topic/50794/#2891264

Given that each of the seven sisters started doing a different work, and six activities have already been
accounted for (reading a book, watering plants, cooking, playing chess, doing crosswords, and laundry), the
seventh sister would be engaged in any other activity not listed among these six. Since the question does not
specify what this activity is, we can infer that it could be anything unique and different from those mentioned.

For example:
— The 7th sister started gardening.
— Or she might have started cleaning the house.
— She could also be taking a walk around the cottage.

Without additional information about specific activities, any of these would be plausible answers.

А давайте спробуємо ось такий текст:
Riddle-
7 sisters went to a cottage & each started doing a different work
1st sister started reading book.
2nd sister stared watering plants.
3rd sister started cooking.
4th sister started playing chess.
5th sister started doing crosswords.
6th sister started laundry
What did the 7th sister do?

У мене при такому тексті qwen2.5:32b-instruct-q4_K_M відповідає наступним чином:
Given that there are seven sisters and each one is engaged in a different activity, it’s important to notice that
“playing chess” typically involves two people. Therefore, the seventh sister was likely playing chess with the
fourth sister since chess requires two players.

So, the 7th sister was playing chess with the 4th sister.

A clever puzzle!

The answer is not a specific activity, but rather an observation based on the information provided. Here’s the solution:

* The question states: “7 sisters went to a cottage & each started doing a **different** work”
* Activities for sisters 1 through 6 are listed, ensuring each one is indeed different from the others.
* Since there’s no additional activity described for the remaining sister, and all activities listed are unique...

**The 7th sister must have...**

* ...started telling or writing the story (or in this case, possibly even creating the puzzle) about her 6 sisters doing different tasks! (Just a playful interpretation)
* **OR**, more realistically, the puzzle simply doesn’t provide enough information to accurately determine what the 7th sister did, as it omits her specific activity. Therefore, **the answer is “Unknown” or
“Not Provided”.**

Without additional context or clues, we can’t definitively say what the 7th sister did, making the most accurate response based on given data: **“Unknown”**.

Маю більш практичний челлендж.
Зараз пробую відреверсити систему команд які ходять по I2C bus в девайсі Philips HTS 8100. Проблема з останнім байтом. Я гадаю що то CRC (бо дуже схоже на те).
Опис тут: dou.ua/...​rums/topic/50622/#2891364

сам подібні вигадував, щоб точно не було в інеті у подібну послідовність слів.
зазвичай тупить чатгпт.
А ще цікавіші — спроби «навчити» LLM чомусь що в неї не виходить, з тих задачок.

Але, як нижче написали — і що доводить вміння чи не вміння вирішувати задачки на літкоді?

От багато пишуть що вміє вже задачки з математичних олімпіад розв’язувати.
А я згадую старий професійний холівар:
чим олімпіадне програмування відрізняється від промислового? і чи є взагалі користь навичок, успіхів у олімпіадному программувані?

А вміння проходити співбесіди — наскільки корелює з вмінням працювати продуктивним програмістом :)

Це все прикольно, але локально хрін запустиш, тому ждем на ціни їх сервісу

А на днях скачав oobabooga/text-generation-webui, скачав пару найпопулярніших модельок — ну, локально воно працює прям дуже хріново. Так це в мене rtx 4090 і 64 RAM

Тобто, якщо раніше я використовував ChatGPT-4 і результат мене задовільняв, але треба було платити і були обмеження по кількості запитів у добу. То тепер я можу скачати собі безкоштовно цю модель і використовувати локально стільки скільки хочу?
Які вимоги до залізу будуть щоб час видачі результату був співмірним з ChatGPT-4?

Llama 3 70b вимагала >38gb VRAM, тобто пару 3090 і старше*

Тут же “You can use the model using HuggingFace Transformers library with 2 or more 80GB GPUs (NVIDIA Ampere or newer) with at least 150GB of free disk space to accomodate the download.”

Те, що по одних тестах гарно, це зовсім не значить, що по іншим також, завжди рекомендується тестувати на своїх задачах. Через API обмеження на запити досить великі, досить просто їх збільшити, питання лише у грошах.

Як вже написали вимоги до GPU добрячі.

Взагалі, хоча ціни й будуть знижуватись а оптимізації покращуватись — дешевим ШІ не стане у найближчі рокі.

А ті моделі якими можна погратись на пристойній геймерський відясі — дуже сильно поступаються серйозним.

І буде виходити що дешевше платити аніж купувати собі відповідне залізо

А ті моделі якими можна погратись на пристойній геймерський відясі — дуже сильно поступаються серйозним.

Лол. Це llm навчений на величезних масивах знань для всього підряд, його будуть разгортати у тотальній меншості nlp повʼязаних задач. Є ще десятки трансформерів від hugging face, які можна розгортати і на ноутах і робити конкретні нескладні nlp задачі(чого буде достатньо для більшості специфічних спеціалізованих потреб) навіть на cpu, а потім коли все готово завантажити з датасетом в будь-який клауд і натренувати за 100-200 $ на gpu готову модель для конкретної задачі яку потім можна спокійно serve на середньостатистичному серверному і недорогому cpu у більшості випадків.

чого буде достатньо для більшості специфічних спеціалізованих потреб

«буде»? ;)

оці «нескладні nlp задачі» та «спефічні спеціалізовані потреби» — пустий тириндьож. такє — нікому не потрібно, крім забавок — та мені просто в хрестики-нолики погратись за допомогою ШІ.

а потім коли все готово завантажити з датасетом в будь-який клауд і натренувати за 100-200 $ на gpu

бла-бла-бла.
і нащо той «ШІ» який тільки в «хрестики нолики» вміє ще й вантажити за 100-200$
коли є звичайний потужний софт — який дешевше — а вміє більш складне :)

Різного типу є оптимісти, але є і такі, да
які розказують чудеса про радикальне зменшення необхідних обчислень в нейромережах при збереженні їх корисності.

Різного типу є оптимісти, але є і такі, да
які розказують чудеса про радикальне зменшення необхідних обчислень в нейромережах при збереженні їх корисності.

складні обчислення масштабу llm потребують великих датасетів, це дуже рідкісні кейси коли тобі треба взяти всі знання світу щоб натренувати генератор тексту на всі випадки життя.
малі-середні нейромережі практично використовуються для великої кількості ші задач(прогнозування, классифиікації, різні рекоммендації(retrival), навіть домен-специфічне розпізнавання тексту, аналіз тексту, картинок) — там десятки тисяч-мілліони і значно менші датасети (не мілліарди параметрів).

оці «нескладні nlp задачі» та «спефічні спеціалізовані потреби» — пустий тириндьож. такє — нікому не потрібно, крім забавок — та мені просто в хрестики-нолики погратись за допомогою ШІ.

тобто по твоєму щоб зробити якусь практичну nlp проблему яка може бути цікава великій кількості людей(наприклад для інтернет магазину — перенаправити почту або дзвінок на відповідальну людину; класифікувати позитивні, негативні фідбеки або запрогнозувати, по яким причинам і хто перестане користуватись твоїм сервісом\апкою врахувавши ці фідбеки) зараз потрібно почати з того що розгорнути LLM масштабу ChatGPT4 і почати через промти щось там вирішувати?

тобто по твоєму

все що обчислюється на цифровому комп’ютері — підкорюється математиці.
Це вона забороняє зменшити кількість операцій для сортування масива менше ніж O(n* log(n))

І у кожного алгоритма, з любої області — є така математична межа для цифрового комп’ютера.

там десятки тисяч-мілліони і значно менші датасети (не мілліарди параметрів)

Значить вони — значно обмеженіші аніж з міліардами параметрів.

навіть домен-специфічне розпізнавання тексту, аналіз тексту, картинок

Ну так. І до ШІ було і є купа вузько спеціалізованого софта.
Питання — в яких випадках на якийсь простенький аналіз тексту покоцаною нейромережою буде економічно вигідно витрачати 100-200$

перенаправити почту або дзвінок на відповідальну людину

Скільки буде коштувати, і чи не дешеве буде платити дівчині з Індіїї за цю роботу? от в чому питання.

класифікувати позитивні, негативні фідбеки

Це да, улуюблена тема презентацій :)
Правда причетні знають негарну рису людей — вони ліняться писати позитивні фідбеки. А от негативні — оставлять всюди де буде згадка. Тобто — чи не перебільшена цінність простенького аналіза позитивного-негативного?

запрогнозувати, по яким причинам і хто перестане користуватись твоїм сервісом\апкою врахувавши ці фідбеки

Ого, це вже на порядкі складніша задача, аніж вказані вами попередні.
А значить точно — кількість обчислень для її вирішеня теж збільшиться. А значить — і ціна рішення.
І точно, такє прогнозування покоцаною моделькою яка вміє тільки маркувати фідбек — негативний/позитивний ніяк не вдасться зробити.

і почати через промти щось там вирішувати?

Як у всьому — it depends

Але на зараз, головні методи покращення роботи ШІ систем на базі GPT — це перезапит до неї ж з перевіркою, вимоги до неї робити щось покроково і т.п. — тобто суттєве збільшення обчислень.
Я слідкую за цією темою.

І чуда, про якє пишуть журналісти і розказують маркетологи — не бачу.
Не бачу йому — причин, тому чуду.

P.S.
Чуда не бачать і ті власники датацентрів які плануюють будувати АЕС для живлення датацентрів :)

Ого, це вже на порядкі складніша задача, аніж вказані вами попередні.
А значить точно — кількість обчислень для її вирішеня теж збільшиться. А значить — і ціна рішення.
І точно, такє прогнозування покоцаною моделькою яка вміє тільки маркувати фідбек — негативний/позитивний ніяк не вдасться зробити.

це в уявленні людини яка не бачила нічого крім rule-based кодування у своєму житті.

на практиці, у самому примітивному варіанті(нейромереж), робиться такою самою моделькою(FFN) де output layer замість бінарного позитивного\негативно з sigmoid активацією, дає multiclass output з softmax активатором. враховуючи, що датасети приблизно однакові хоч і з різною кількістю фіч складність розрахунків буде співмірною як і складність мережі, а не різнитись на порядки.

по всім іншим пунктам — no comments, одні facepalm

це в уявленні людини яка не бачила нічого крім rule-based кодування у своєму житті.

Угу, в магію тому масово й вірять, що не знають базової математики у комп’ютер сайенс.

по всім іншим пунктам — no comments, одні facepalm

да, да, читайте побільше журналістив, і слухайте презентації.

і не читайте технарських та наукових текстів — будете шанованим у натовпу подібних же людей з магічним мисленням :)

вам явно зарано давати рекоммендації у цій темі кому, що читати)

це да, тому хто не вміє в арифметику нема сенсу щось розказувати.

а цю всю магію про «фідбеки» — йдіть бізнесу продайте.

як нещодавно був на вебінарі продакт менеджерів, які роблять продукти з ШІ не перший рік
«Перше що ви повинні знати — це страшенно дорого. Ви просто не уявляєте наскільки у реалі великий розрив між ціною яка виглядала і яка виходить. Не рідкість що замовники на півдорозі й відмовлялись взагалі.»

Бізнесу продавайте, та бажаючим намайнити собі кріпти купивши ферму для майнінгу :)

Гугл вже купу оцих продавців ШІ для маркетингу вбив, додавши інструментів на базі Gemini. Які думали на колінці на коцаних моделях щось наваяти і тягатися «спеціальними моделями»

Це як мріяти створити свій клауд, на якій побіжуть з AWS

Гугл вже купу оцих продавців ШІ для маркетингу вбив, додавши інструментів на базі Gemini. Які думали на колінці на коцаних моделях щось наваяти і тягатися «спеціальними моделями»

Гугл насправді був в цій сфері першовідкривачем — просто мали інший фокус(не на генеративних трансформерах), а так рішення гугл це прям state-of-art моделі(BERT/sBERT і похідне) які використовують в FAANG всюди і за його межами у різних маркетплейсах типу zalando, spotify і т.д. і досі — саме ті коцані моделі як ви виражаєтесь.
Для вас просто ші почалось с chat gpt і їм же схоже і обмежуються, тому не знаєте цього.

як нещодавно був на вебінарі продакт менеджерів, які роблять продукти з ШІ не перший рік
«Перше що ви повинні знати — це страшенно дорого. Ви просто не уявляєте наскільки у реалі великий розрив між ціною яка виглядала і яка виходить. Не рідкість що замовники на півдорозі й відмовлялись взагалі.»

«Страшенно дорого» ну це така собі міра, комусь і 200$ щоб натренувати модель будет страшенно дорого — насправді все залежить від масштабу характеру рішення тут немає умовних обмежень мінімального бюджету(чи це просто інтеграція з llm щоб там щось екстрактити з документів, чи це кастомне софтверне рішення модель для якогось прогнозування, чи треба якесь hardware забезпечення для цього рішення — не для тренування моделі і т.д.) і може коштувати як малий проект на пару міс для малої команди(в украутсорсі) — 30-50-100к $ end-to-end якись b2c рекоммендейшин або рішення для логістики пов’язане з запасами або перемішенням, а може коштувати і 1$mln+ (Netflix recommendations), 1$bln+ self driving cars — в інтернеті достатньо інформації з прикладами з реального продакшину, це не закрита інформація. Порівняння з криптою тут взагалі недоречне(ці рішення існували до крипти і до llm) і використовувались і давали профіт і будуть використовуватись і надалі збільшуючи продуктивність людини, а значить будуть рушійною силою технологічного прогресу.

в інтернеті достатньо інформації з прикладами з реального продакшину, це не закрита інформація

Як і відкрита інформація про занепокоєння інвесторів, про повільне впровадження у бізнеси

«Страшенно дорого» ну це така собі міра

та вона проста — коли витрати більші за профіт :)
І можна погуглити на тему
The Real Cost of AI Integration in Businesses
easyflow.tech/...​sses-ai-integration-cost

і будуть використовуватись і надалі збільшуючи продуктивність людини, а значить будуть рушійною силою технологічного прогресу.

І я не казав шо ШІ кінець, це бульбашка і т.і.
Буде розвиватись, проникати у сфери які зараз і не згадуються.
Повністю згоден з вашим цим підсумком.

А от дешевим буде тільки як SaaS від топових постачальників.
Або — дуже покоцаним і неякісним.

Звісно, для більш конструктивної дискусії мені слід підготовуватися більш ретельно, а не ті пару куценько хлопських коментів, N.B.
Просто не маю на зараз часу. Та й — не в пріоритетах.

Якщо ви використовували OpenAI API і вас усе влаштовувало, то продовжуйте використовувати API, адже поки що жодна локальна модель до GPT-4 не дійшла. І головний бонус «занадто великих моделей, навчених на всьому» — у zero-shot, тобто вам не треба їх навчати, достатньо просто написати промпт та завантажити специфічні для бізнесу документи у vector store.

Тобто learning curve дуже малий, і початкові затрати — 0. Якщо вам дорого платити за токени за існуючими цінами, то, скоріше за все, ви продаєте долари за 50 центів, і моделі тут ні до чого.

Ви ніколи не зможете повернути кошти на локальне залізо, адже у вас ніколи не буде тієї утилізації, яку має OpenAI.

Крім того, OpenAI зараз дуже демпінгує, тобто долари за 50 центів продають вам вони, і нерозумно цим не скористатися.

Тобто, якщо раніше я використовував ChatGPT-4 і результат мене задовільняв, але треба було платити і були обмеження по кількості запитів у добу. То тепер я можу скачати собі безкоштовно цю модель і використовувати локально стільки скільки хочу?

Дивлячись якої складності питання. Для простих питань, як альтернатива гуглу, llama 70b може замінити ChatGPT-4о, но там де треба великий контекст, чи по-думати, то відкриті моделі на 70b параметрів сильно гірші за закриті моделі.

Підписатись на коментарі