Anthropic представила нові моделі Claude 3.5 Sonnet та Claude 3.5 Haiku, а також функціонал використання комп’ютера

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Anthropic анонсували оновлену модель Claude 3.5 Sonnet та нову модель Claude 3.5 Haiku, а також запускають в публічну бета-версію нову унікальну функцію — використання комп’ютера. Тепер через API розробники можуть налаштовувати Claude для взаємодії з комп’ютером, наче це робить людина: дивлячись на екран, рухаючи курсор, натискаючи кнопки та набираючи текст. Claude 3.5 Sonnet є першою моделлю штучного інтелекту, що пропонує використання комп’ютера в публічній бета-версії.

Claude 3.5 Sonnet показує широкі покращення на галузевих еталонних тестах, особливо в агентному кодуванні та завданнях із використанням інструментів. Наприклад, точність у завданнях кодування (SWE-bench Verified) зросла з 33.4% до 49.0%, що є кращим результатом, ніж у всіх доступних публічно моделей, включно зі спеціалізованими системами для агентного кодування. Модель також демонструє покращення в тесті TAU-bench для завдань із використання інструментів у роздрібній сфері (з 62.6% до 69.2%) та авіаційній сфері (з 36.0% до 46.0%).

Компанії, як-от GitLab, відзначають суттєве покращення в кодуванні для DevSecOps завдань. Компанія Cognition використовує Claude 3.5 Sonnet для автономних оцінок ШІ та відзначає значні поліпшення у кодуванні, плануванні та розв’язанні проблем. The Browser Company повідомляє, що Claude 3.5 Sonnet перевершує всі моделі, з якими вони працювали для автоматизації веб-робочих процесів.

Оновлена модель вже доступна для всіх користувачів, і розробники можуть почати працювати з бета-версією функції використання комп’ютера через API Anthropic, Amazon Bedrock та Vertex AI від Google Cloud.

Claude 3.5 Haiku пропонує вищу продуктивність порівняно з Claude 3 Opus, зберігаючи швидкість та низьку затримку Claude 3 Haiku. Наприклад, в кодуванні він показує результат 40.6% у тесті SWE-bench Verified, перевершуючи багато сучасних моделей, включно з Claude 3.5 Sonnet і GPT-4o. Claude 3.5 Haiku підходить для продуктів, орієнтованих на користувача, та задач, які потребують персоналізації, як-от обробка даних про покупки.

Claude 3.5 Haiku буде доступна пізніше через API, Amazon Bedrock та Google Cloud’s Vertex AI, спочатку лише у текстовому форматі, а пізніше — із можливістю роботи з зображеннями. Ціни на модель Claude 3.5 Haiku складають $1 за мільйон токенів на вхід і $5 за мільйон токенів на вихід.

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Субʼєктивно Claude набагато розумніша за GPT, але є суттєві обмеження на використання api. Досить швидко при асисті впираюсь в ліміти токенів.

Зі скріншотами і руханням мишкою — це з одного боку цікаво, бо можна автоматизувати певну рутину, але з іншого поточний метод вирішення проблем досить повільний і справжній AI мав би його вирішувати через якийсь набагато швидший інтерфейс.

яку рутину, вже ж жпт забрав її наче
скоро 10 компаній в світі заберуть 90% роботи)

Я трохи не розумію цього поняття «жпт забрав роботу», я ж як людина буду використовувати жпт як інструмент для виконання якоїсь роботи, а не змагатися з ним.
Ми ж не змагаємося з молотком і не забиваємо цвяхи руками, чи з веб-сервером і не рахуємо в голові складні обчислення)

блін ну прочитай ще раз)

Не забрав роботу, а додав інструментів) навіть дизайнери, роботу яких в багатьох сферах вже можна автоматизувати, — беруть llm інструмент, накидають базу, йдуть до клієнтів, роблять інтервʼю, потім аналізують узгоджують і полірують.

Так само з програмуванням, програміст бере інструмент, накидує базу, йде до продакта і узгоджує всі моменти як має бути і дополіровує, поправляє, відкидає взагалі перший варіант.

це ж добре, заберуть рутину, шкіряним мішкам можна бути нарешті зайнятись цікавими творчими проектами.

Підписатись на коментарі