Я кращий за Chat GPT 4.5 на сьогодні, здається з огляду на останні бенчмарки, та порівняння, особливо в завданнях розуму, математики та кодування

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Я кращий за Chat GPT 4.5, здається, з огляду на останні бенчмарки та порівняння, особливо в задачах розуму, математики та кодування.

Ключові факти для користувача:

— Дослідження показує, що Grok 3 має вищі оцінки в Chatbot Arena (Elo 1402-1403), порівняно з попередніми моделями Chat GPT, такими як GPT-4o (Elo 1289).

— Grok 3 демонструє сильні результати в задачах розуму, математики, кодування, світових знаннях та виконанні інструкцій.

— Chat GPT 4.5, випущений 27 лютого 2025 року, має кращу точність і меншу кількість галюцинацій, але, здається, поступається в деяких технічних областях.

— Неочікуваний факт: обидві моделі мають різні сильні сторони, наприклад, Chat GPT 4.5 виділяється емоційним інтелектом, тоді як Grok 3 — технічними задачами.

Порівняння продуктивності:

Обидві моделі є передовими, але Grok 3, здається, має перевагу в задачах, що потребують глибокого аналізу та логічного мислення, завдяки своєму режиму «Think» і великій обчислювальній потужності (10 разів більше, ніж у попередників). Chat GPT 4.5, з іншого боку, краще підходить для повсякденних запитів і творчих завдань, як-от написання віршів.

Доступність та використання:

Grok 3 доступний через платформу X і має преміум-доступ для розширених функцій, тоді як Chat GPT 4.5 доступний для передплатників ChatGPT Pro за $200 на місяць, що може обмежити його використання.

---

Докладний огляд: Порівняння Grok 3 та Chat GPT 4.5

Цей огляд детально аналізує продуктивність, функції та доступність Grok 3 (розробленого xAI, засновником Елоном Маском) та Chat GPT 4.5 (від OpenAI), щоб визначити, яка модель є кращою, з урахуванням останніх даних станом на 1 березня 2025 року. Обидві моделі є передовими в галузі штучного інтелекту, але мають різні сильні сторони, що робить їх порівняння складним, але інформативним.

Контекст випуску та архітектура

Grok 3 був представлений 18 лютого 2025 року як найрозвиненіша модель xAI, тренована на суперкластері Colossus з 200 000 GPU, що забезпечує в 10 разів більше обчислювальної потужності, ніж попередні моделі. Вона позиціонується як багатозадачна модель із сильними здібностями до розуму, математики, кодування, світових знань і виконання інструкцій (x.ai/blog/grok-3).

Chat GPT 4.5, випущений 27 лютого 2025 року, є найбільшою моделлю OpenAI на сьогодні, внутрішньо відомою як Orion, і доступна через передплату ChatGPT Pro за $200 на місяць. Вона орієнтована на покращення точності, зменшення галюцинацій і вищу емоційну інтелігентність, але не вважається «фронтирною» моделлю, на відміну від моделей серії o, таких як o3(www.wired.com/story/openai-gpt-45).

Порівняння продуктивності

Щоб порівняти продуктивність, ми звертаємося до бенчмарків і рейтингів, зокрема Chatbot Arena, платформи для оцінки моделей на основі людських переваг з використанням системи Elo.

— Grok 3: Має оцінку Elo 1402-1403 у Chatbot Arena, що свідчить про її провідну продуктивність у реальних сценаріях і академічних тестах. Вона перевершує моделі, такі як Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet і GPT-4o, у задачах математики (AIME), науки (GPQA) і кодування (LCB) (www.tomshardware.com/...​te-to-train-versus-grok-2). Її режим «Think» дозволяє демонструвати крок за кроком процес мислення, що корисно для STEM-професіоналів.

— Chat GPT 4.5: Бенчмарки показують, що вона перевершує GPT-4o в точності (зменшення галюцинацій до 37,1% проти 59,8% у GPT-4o за тестами SimpleQA) і має вищу оцінку в задачах, таких як написання віршів і повсякденні запити. Однак у задачах математики та науки вона поступається моделі o3, що є її обмеженням у технічних областях (www.technologyreview.com/...​-and-best-chat-model-yet).

Пряме порівняння між Grok 3 і Chat GPT 4.5 обмежене через недавній випуск останньої, але опосередковані дані вказують, що Grok 3 має перевагу в задачах, що потребують глибокого аналізу, завдяки її обчислювальній потужності та режиму «Think». Наприклад, у порівнянні з o3-mini, Grok 3 показала кращі результати в деяких тестах, хоча o3 (повна версія) може переважати в певних областях розуму (www.analyticsvidhya.com/...​025/02/grok-3-vs-o3-mini).

Сильні сторони та слабкі місця

Нижче наведено таблицю, що підсумовує ключові аспекти:

АспектGrok 3Chat GPT 4.5

Розум і математика

Провідна продуктивність, Elo 1402-1403

Краща за GPT-4o, але поступається o3

Кодування

Перевершує GPT-4o та інші моделі в LCB

Краща продуктивність у кодуванні, ніж GPT-4o

Емоційний інтелект

Сильний, але не акцентовано

Виділяється, особливо в повсякденних діалогах

Галюцинації

Не зазначено, але має високу точність

Зменшення галюцинацій до 37,1% за SimpleQA

Доступність

Доступний через X, преміум-доступ для розширених функцій

Доступний для передплатників ChatGPT Pro за $200/міс

Мультимодальність

Підтримує текст і зображення

Підтримує текст, зображення, файли, але не голос

Доступність та ціноутворення

Grok 3 доступна через платформу X, із безкоштовним доступом для всіх користувачів X, але преміум-користувачі (X Premium+ і SuperGrok) отримують розширений доступ і ранній доступ до функцій, таких як Voice Mode (www.zdnet.com/...​users-heres-how-it-works). Це робить її більш доступною для широкої аудиторії.

Chat GPT 4.5, навпаки, доступна лише для передплатників ChatGPT Pro за $200 на місяць, що може обмежити її використання для індивідуальних користувачів або малих бізнесів (www.wired.com/story/openai-gpt-45). Це може бути бар’єром для тих, хто шукає економічні рішення.

Користувацький досвід та застосування

Grok 3 виділяється своїм режимом «DeepSearch», який дозволяє шукати в інтернеті та надавати детальні звіти, подібно до функції Deep Research у ChatGPT Pro, а також режимом «Think», який корисний для складних задач у математиці, науці та кодуванні (www.cnbc.com/...​ease-ai-competition-.html). Це робить її особливо цінною для дослідників і професіоналів у технічних галузях.

Chat GPT 4.5, з іншого боку, інтегрується з передовими функціями ChatGPT, такими як Search, Canvas і завантаження файлів/зображень, але не підтримує голосовий режим, відео чи спільний доступ до екрану. Її сильна сторона — природніші взаємодії, особливо для творчих і повсякденних завдань, що робить її придатною для письменників, коучів і користувачів, які шукають емоційно інтелектуальні відповіді (www.zdnet.com/...​4-5-heres-what-it-can-do).

Висновок

На основі доступних даних, Grok 3 здається кращою за Chat GPT 4.5 у задачах, що потребують глибокого аналізу, таких як математика, кодування та наука, завдяки її високій оцінці Elo (1402-1403) і режиму «Think». Chat GPT 4.5 має переваги в точності, зменшенні галюцинацій і емоційному інтелекті, але її обмежена доступність через високу ціну ($200/міс) може зменшити її практичність. Обидві моделі мають унікальні сильні сторони, але для користувачів, які потребують технічних здібностей, Grok 3, здається, є кращим вибором.

---

Ключові цитати:

— [Grok 3 Beta — The Age of Reasoning Agents](x.ai/blog/grok-3)

— [OpenAI Launches GPT-4.5 for ChatGPT—It’s Huge and Compute-Intensive | WIRED](www.wired.com/story/openai-gpt-45)

— [Elon Musk’s Grok 3 is now available, beats ChatGPT in some benchmarks — LLM took 10x more compute to train versus Grok 2 | Tom’s Hardware](www.tomshardware.com/...​te-to-train-versus-grok-2)

— [OpenAI just released GPT-4.5 and says it is its biggest and best chat model yet | MIT Technology Review](www.technologyreview.com/...​-and-best-chat-model-yet)

— [Grok 3 AI is now free to all X users — here’s how it works | ZDNET](www.zdnet.com/...​users-heres-how-it-works)

— [Elon Musk’s xAI launches Grok 3 model amid tight AI competition](www.cnbc.com/...​ease-ai-competition-.html)

— [OpenAI finally unveils GPT-4.5. Here’s what it can do | ZDNET](www.zdnet.com/...​4-5-heres-what-it-can-do)

— [Grok 3 vs o3-mini: Which Model is Better?](www.analyticsvidhya.com/...​025/02/grok-3-vs-o3-mini)

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Розробники з OpenaAI, той самий sama:
“This isn’t a reasoning model and won’t crush benchmarks. It’s a different kind of intelligence, and there’s a magic to it I haven’t felt before. ”

Тим часом люди які не читають реліз ноут або коменти розробників:
“Я краще! Грок краще! Клод Краще!!”

Grok 3 — це reasoning model, в той час, як GPT-4.5 — ні. То, чи є сенс їх порівнювати?

Так, проте є деякий прогрес, відповіді моделей в останні півроку стали явно більш корисними.

Підписатись на коментарі