«Людство програло»: Gemini виграв світовий фінал Міжнародної студентської олімпіади з програмування (UPD)

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Компанія Google заявила, що її LLM-модель Gemini 2.5 виграла світовий фінал Міжнародної студентської олімпіади з програмування (ICPC), отримавши золоту медаль.

Найбільші змагання з алгоритмів

Щороку тисячі програмістів з різних коледжів беруть участь у ICPC, намагаючись протягом п’яти годин розв’язати складні алгоритмічні задачі. Це найбільші та найдовші змагання такого типу. Для участі Google підключила Gemini 2.5 Deep Think до віддаленого онлайн-середовища, схваленого ICPC. Людським командам надали фору у 10 хвилин, перш ніж ШІ почав «думати».

Для цієї олімпіади Google не створювала окрему спеціалізовану модель. Участь брала та сама серійна версія Gemini 2.5, яку всі користувачі можуть побачити в інших продуктах.

Результати Gemini

Після закінчення ліміту часу Gemini вдалося правильно розв’язати 10 із 12 завдань, що принесло йому золото. Такий результат змогли показати лише 4 з 139 «людських» команд.

Особливо вражає швидкість. Вже за перші 45 хвилин Gemini вирішив 8 задач і вийшов у верхні позиції рейтингу. А після повних 677 хвилин інтенсивних обчислень мав 10 правильних відповідей.

ICPC оцінює лише правильні відповіді з урахуванням витраченого часу, тому навіть фора у 10 хвилин для людей не завадила Gemini продемонструвати результат рівня золотої медалі.

UPD: Модель GPT-5 від OpenAI розв’язала всі 12 завдань з 12 і стала абсолютним чемпіоном змагання

OpenAI у себе на сторінці в Х повідомила, що їх нова модель GPT-5 розв’язала всі 12 з 12 завдань і тим самим зайняла місце абсолютного чемпіона олімпіади.

Нагадаємо, що раніше завдяки польському програмісту Пшемиславу Дембяку, який переміг ШІ на змаганнях AtCoder 2025, у людства ще був шанс вистояти перед штучним інтелектом. Тепер цього шансу нема :)

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Я використовую Gemini як сільського дурника для генерації стахастического шуму. Коли дорослі хлопці щось генерять, я йому також даю ці завдання і потім показую їм — А чому не так? Це допомагає уникати дурних рішень.
При цьому я вірю, що він міг виграти олімпіаду. Що просто вкотре доводить що переможці олімпіад геть не вміють програмувати. Принаймні, з коробки.
Як на мене це зараз найгірша LLM для побутового спілкування. Може вона в пошук гарно вміє. Не знаю.

Капіталіст, коли зарплатню робітникам платить — робить більшою покупацьку спроможність.
А якщо він цю спроможність затискає? Він іншим капіталістам шкоду робить. Він економіці шкоду робить. Те, що він наварює на покупацьких грошах та обертанні за них залізяк (свого капіталу) на ринку — це пів біди. А ось прямий вплив на рівень безробіття — це біда.

За кожною залізякою стоїть купа покупців, що купують і тим самим дають гроші на відновлення, модернізацію і оптимізацію цієї залізяки. Це називається амортизація капіталу або відновлення капіталу.
Хай покупці купують лише те, що зроблене не роботами. І роботи не відновляться.
Он, на Блізарді засилля ботів призвело до демпінгу цін на ігрові предмети. Їх пошук коштує гравцям грошей, але ботам це як два пальці. Тому демпінг.
І тут раптово — з’явився сервер Блізлесс, що пропонує гравцям встановити спеціальний софт, що буде відстежувати дії гравця і забороняти ботоводство.
Отакий «людський» сервер.
Тобто, якщо колись побачу примітку на товарі «Зроблено людьми» залюбки придбаю?

LLM-модель Gemini 2.5 виграла світовий фінал

до речі реально не розумію — як? оскільки це недолуге є у мене в смартфоні і наприклад тільки за сьогодні
на питання українською дало після паузи замість очікуванного списку відповідь чомусь аглійською — i do not have enough information to answer your request
а на наступне (сформульоване по-іншому) тимчасово завісило смартфон, загнавши в середину тексту відповіді мільйон символів ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
пізніше пояснивши, що це була невдала спроба розмітки

ну яка тут може бути олімпіада без man-in-the-middle, який буде відфільтровувати ШІ-галюцинації

Ну так і трактором теж треба вміти керувати, можливості LLM обмежені.
Як вправно помітили, Гаррі Каспаров програв в грі в шахи не компьютеру — а людям які розробили і користувались цим копьютером з компанії IBM. Доки що жодна машина без вправного її оператора, нічого не варта.
Та якщо буде сворено SkyNet — тоді в людства суттєві неприємності можуть бути, наприклад вимримо як мамонт, через нестаток кормової бази.

Літкод задачі chatgpt видає одразу оптимальний результат, принаймні топ 100. При чому як по завданню так і по шматку коду
Завдань з олімпіади я знаю, але думаю, що працює так само.

Калькулятор переміг в змаганні математиків. Всі бухгалтери миттєво звільнені а Васюки стали Нью Москвою

У людсва є купа спеціальностей тим не менше, при чому як серед білих комірців так і синих, де робота в сутності примітивна монотонність яку реально можна автоматизувати. А оскільки ми живемо в світі капіталізму годандського зразку, то будуть протести типу гільдії пільщіків, що втратили джерело прибутку з роспилу бревен на дошки і бруси для будівництва кораблів. Повторне винайдення кривошипу (в Китаї від був дуже данно, але в Європу не потрапив) і створення пилорами на вітровій енергії, зробило високо оплачуєму профессію пильщіка безнадійно застарілою і не конкурентно здатною. А Голандія вдарилась в спекуляції на ринку тюльпанів. При усіх інших капіталізм керується числами в першу чергу, головна цінність в ньому є — капітал. Ну і тюльпанова криза і усі за нею показали, що через людську природу примата гомініда — стайного хижака, нема жодних приділів людській жадобі.
P.S. Як нещодавно оприлюднив Ілан Маск, DOGE за допомогою ШІ знайшли масштаб в сутності шахрайських витрат в США на 2 трильйони доларів на рік, та результатом стало зовсім не реформи — діяльність DOGE в сутності припинили. Бо хтось залишиться без теплого місця.

Зараз би маску вірити. Він скаже що завгодно, або прикрити свою дупу і не визнавати епічний файл дожея. Звісно, що діяльність припинили, бо там була сама корупція, незаконні звільнення і супер тупі рішення. Наприклад, з бюро of labor statistics, де вони сказали, що в них не вистачає фінансування для збору даних по безробіттю, тому частину даних вони екстраполювали. Що зробив цей геній? Зрізав їм фінансування ще більше, підвищивши рівень екстраполяції настільки, щоб дані перетворилися на сміття, а потім юзає ці сміттєві дані для планування економічних реформ. Очевидно, що економіка йде в рецесію але вони роблять що завгодно, щоб не визнавати це якомога довше. Те ж саме з відміною квартальних звітів для публічних компаній. Намагаються виграти ще рік (бо компанія може «позичити з майбутнього») зелених акцій

Епічний фейл, безмовно через те, що там сокирою пройшлись бездумно, проблему виявляють науково — а от шляхи її вирішення бездумно і методом грубої сили. Так це метод стартапів Кремнієвої Долини чи металітет морської піхоти, або перформанс сильно вище за середній — або на мороз. В таких же системних орнагізаціях як держава, це беззмістовно необхідно діяти за допомогою реформ, міняти правла гри. З тою же системою державних пенсій, де є величезна шахта із пареровими документами, можна було почати автоматизувувати. Між іншим тут Україна якраз і мінцифри, це той випадок коли ми краще за Америку і навіть за Німечину і їх випередили скажімо із електронними призначеннями лікаря.
Ну і результат звістно в США плачевний, вигнали фахових професійних людей з того же USAID чи госдепу — обламались на Алясці, обломані Китаєм по повній программі і т.д. Коротше як і в програмуванні — у будь якої проблеми завжди є просте і очевидне для людської природи і при цьому в корні не вірне рішення. Бо для стандартного людського сприняття — Земля полоска, а на ділі вона кругла і вертиться.

Колеги, це вже як із Гаррі Каспаровим чемпіоном світу в шахи, який програв компьютеру.

Зі слів IBM програма грала чесно. Після матчу акції IBM зросли, капіталізація збільшилася на лярд, а суперкопʼютер розібрали. Матч реванш Каспарову зіграти не дали.

Там логи на вимогу видали, бо Каспаров почав : заперечення, гнів, торг , депресія, прийняття. На сьогодні більшість шахматних движків уділють більшість гросмейстерів, якщо не встановлено шиучних обмежень. Грати із компьютером, ие саме — що перетягування канат із трактором, жоч яка була підготовлена команда — трактор має в 10 разів вище характеристики і перетягне.

Яке це має значення? Їх можна намалювати. Не логи, декілька ліній. Просто ситуація така сама, як і в цій олімпіаді: дії IBM ніхто не контролював. Хід передавався з лабораборії, хто його робив невідомо.

Хід передавався з лабораборії, хто його робив невідомо.

Тобто деяка невідома особа з лабораторії грала краще за чемпіона світу на той час?

На той час будь який КМС міг суттєво підсилити гру компʼютера.

Зайди на сайт lichess, включи Stockfish, в налаштуваннях вистави Multy PV і ти будеш бачити декілька ліній (ходів) та їх оцінки. Слабкості гри програм того часу були доволі очевидні: переоцінка матеріалу, недооцінка безпеки короля, гра в деяких закінченнях. Тому ти дивишся на ходи, як мінімум з декількох рівних по оцінки можна обирати. Наприклад, та бачиш два ходи, кращій оцінка +2.1, другий по силі це +2.0. Але кращий призводить до позиції, де дуже ймовірний вічний шах (відкритий король, ферзь шахує), ти знаєш, що компʼютер слабкий в тому, щоб вираховувати це (просто показує два зайві пішаки). Тому просто обираєш другу лінію.

Каспаров не визнавав, що його преграли люди за допомогою машини, а не просто люди гросмейстери які банально діяли узгоджено колективом проти його одного. В дійсності так воно насправді і було, але до цього вони створили механізм — комьютер, який їм дозволив це зробити без годин обговорень тактик та стретегій під час гри. Усе було продумано заздалегдь ще до гри і машина була технічним допінгом.
«А human on a bicycle was the most efficient form of locomotion, surpassing other animals and machines.» Steve Jobs
www.facebook.com/...​-is-now-/889522799022318
Історія про Енігму і її злам Аланом Тюрингом і командою, абсолютно про те саме.

Матч реванш Каспарову зіграти не дали.

Требовать реванш потому что ты проиграл в игре, на условиях, на которых ты согласился — это немного тупо.

Если не устраивают условия, или если есть подозрения, что кто-то читит, то не нужно начинать игру, или нужно остановить игру как только появилось подозрение в читинге.

Величезна купа посад в ІТ буде закрита, назавжди.

Цікаво подивитися на динаміку. Можна сперечатися чи чесно Deep Blue обіграв Каспарова, але це був окремо спроектований суперкомп’ютер.
Потім комп’ютери «переїхали» на персоналки і почали битися з людьми майже на рівних. Але більше за рахунок того, що людина втомлювалася, зіває тактику... Розуміння гри було краще у людей.
Тому активно розвивався адванс — змагання, де людина та комп’ютер грали в тандемі. Треба було вміти допомагати машині. Найкраще це виходило у КМС — вони розуміли слабкості програм і корегували їх гру. А от гросмейстери частіше заважали, нав’язуючи машині свою «людську» логіку.
Але зараз все змінилося. Останній чемпіонат світу з шахів за листуванням: всі партії внічию, якщо не рахувати учасника, який помер під час турніру. З появою Stockfish NNUE людина може тільки погіршити гру комп’ютера.
Це підтверджує і досвід топ-гравців. Дубов розповідав, що у 2018 році команда Карлсена підготувала багато нових ідей до матчу на першість світу (коли комп’ютер оцінював позицію помилково), а в 2020 їх майже не було.
Машини не просто нас перемогли — вони переросли нашу здатність їм допомагати. Правда не слід забувати про закон Мура.

це був окремо спроектований суперкомп’ютер.

кластер зі звичайних RS/6000 з додатковими спеціалізованими процесорами, які дозволяли оцінювати загалом 1+млрд позицій в секунду — дивно що Каспаров тоді не всі партії програв

Ок, вважаємо що на кожному ході 35 можливостей. Тоді за 10 хвилин ми подивимося...600 млрд позицій тобто 8 полуходів, або 4 хода. Цього недостатньо щоб обіграти навіть КМС.
Зараз SF дивиться набагато менше, а грає сильніше. Звісно що альфа-бета дозволяє скоротити дерево, але знову не радикально. Порівняй з людиною, яка бачить, що позиція короля вразлива, білі підведуть фігури та через 10 ходів будуть сильні загрози.
Ще раз, партія № 2, Каспаров здався в позиції, де Stockfish в бразувері миттєво каже: білі випустили перевагу, тепер нічия.

Ну так — коли його питаєш теорію (ну, скажемо, реляційної алгебри) — все айс, дуже дуже гарно ю. Але ж коли кажеш написати код під цю саму реляційну алгебру та домену модель на рівні «треба робити добре, погано не треба» (ну тобто класичні запити бізнесу) — то пшик і нічого зовсім не працює.

Допоки є Пшемек, у ШІ шансів немає).

абож можна сприймати за пропозицію для майбутньої назви олімпіадного ШІ)

OpenAI у себе на сторінці в Х

Тобто офіційно не брали участь, але перемогли.

Модель выиграла а человек проиграл. Люди и далее будут проигрывать пока не поймут что надо обьединятся. Сейчас люди делают то что их потом разьединяет. Вопрос вокруг чего обьединятся?

:) «немає шансів ...» не написати комент після ...

Вікторини/конкурси і т.п. — демонстрація можливостей (як людей так і машин) плюс напевно реклама. У випадку коли з ші отримують дуже і дуже відомий науковий prize нп, для когось то виглядає не так вражаюче як математичні конкурси.

Сидіти і придумувати виправдання, чому олімпіадне програмування непотрібне

Учасники повинні бути студентами університетів, які мали менше п’яти років університетської освіти до конкурсу. Студенти, які раніше брали участь у двох світових фіналах або п’яти регіональних змаганнях, не мають права брати участь повторно.

В той час у ШІ є база всіх завдань за всі роки. Така собі перемога, але все одно круто!

ну звісно у людства немає більше шансів, бо джемінай розв`язав 12 задач, а як ще може бути

clickbait до любих новин — напевно назараз тренд подачі любої інформації, у випадках коли інформація може бути цікава сама по собі — хз навіщо

такі заголовки вже навіть пенсіонери не сприймають серйозно

особливо смішить на ютубі — АААА!!! НАС ВСІХ ЗВІЛЬНЯТЬ! ЗАЛИШАТЬСЯ ЛИШЕ 5 ПРОФЕСІЙ!!! ЦЕ ТВІЙ ОСТАННІЙ ШАНС!!!

заходиш туди, бачиш говорящу голову, яка 2 хвилини випускає з рота звуки, які можна впорядкувати в слова та іноді навіть в речення, але от зрозуміти месседж важко (бо його там немає). через 2 хвилини почиається реклама якоїсь жувачки чи труселів. далі ніколи ще не дивилася.

Ну... по-перше, де античіт контроль? Коли є конект до віддаленого середовища, то проконтролювати людське втручання неможливо, Каспаров Deep Blue 2.

По-друге, як я правильно зрозумів, то люди розвʼязали усі задачі.

По-третє, я не виключаю, що це був спеціалізований софт, спеціально налаштований під такі задачі.

Окреме питання, чи можна користуватися Google? В принципі не виключаю базу таких задач та пошук там. Маркетинг...

по-перше, де античіт контроль?

ШІ аутсорсинг до інших ШІ?)

як я правильно зрозумів, то люди розвʼязали усі задачі

якщо відносно на чому навчалися, то у продовження логічного ланцюжка треба додати — «А люди від кого походять?», і потім сказати — «Отож!»)

спеціалізований софт, спеціально налаштований під такі задачі

булоб доволі логічно щоб і люди, і ші мали спеціалізацію (навіть поза олімпіадами/конкурсами)

ШІ аутсорсинг до інших ШІ?)

Ну... я більше про те, щоб поставити людину, яка буде наглядати за процесом та робити підказки час від часу.

булоб доволі логічно щоб і люди, і ші мали спеціалізацію

Тут питання скоріше, що у простих смертних такого доступу не буде.

я більше про те, щоб поставити людину, яка буде наглядати за процесом та робити підказки час від часу

в принципі можливо — можливо, але якось занадто конспирологічно щоб стверджувати немаючи такої інформації

булоб доволі логічно щоб і люди, і ші мали спеціалізацію

Тут питання скоріше, що у простих смертних такого доступу не буде.

По великому рахунку цікавим має бути практичне використання (типу як в житті щось) — результат коли і ші і людина мають однаковий такийсамий доступ (будь-який) до додаткової інфо.

в принципі можливо — можливо, але якось занадто конспирологічно щоб стверджувати немаючи такої інформації

Саме тому умови мають бути прозорими. Люди брешуть, особливо коли мова йде про маркетинг, великі гроші, ... Сам робив коєфіцієнти брехні.

мають бути

Тобто перейшли в площину вірю-невірю -
чи можуть машині рішення спеціалізований конкурс виграти чи ні. І я так зрозумів ваша початкова відповідь десь поміж — скептичне ні / не вірю / невпевнений принаймні на поки що.

Виглядає як продовження нп як колись цікавились чи може машина обіграти в шахи людину чи ні, також думаю що спочатку було достатньо вірю-невірю.

Моя відповідь: є конфлікт інтересів. Ми маємо вірити Google на слово. При тому, що від цього залежить оцінка продуктів Google.

Зараз є шахові чемпіонати світу TCEC: ти сабмітиш їм двигун, а вже організатори його запускають на своєму залізі. Тобто є посередник. Коли Каспаров грав з Deep Blue, то хід посилався з лабораторії IBM, хто його робив... Є питання.

Так і тут. Не питання, що скоро люди будуть переможені. Але чи настав цей момент? Звісно, що це може бути брехня заради благо, типу ми ще слабіше, але завтра будемо сильніше, тому чому б не показати відразу... Трохи надуримо, але...

Ну і... в принципі є ідея стартапу, зробити coding arena на кшталт llm arena. Кожен аплоадить своїх агентів, вони змагаються.

Це, звісно, круто. Бо частину відносно простої рутини можна буде скинути на LLM.

Але "

У людства шансів більше небуде

" лише коли LLM почнуть розуміти складні контексти — тут поки погано.

Бо написання коду з нуля без подальшої підтримки — це взагалі інша за складністю задача, ніж створити підтримуваний код. І далеко не те саме, щоб внести зміни у наявну і, тим більше, велику базу коду (тут, треба визнати, і у людини є складності, але...)

А так-то і калькулятор рахує швидше людини. Тільки він рахує виключно те, що людина в нього заклала і не більше, ніж має розрядів (в той час як людина «в стовпчик» не має обмежень, принаймні, теоретично)

І автівка швидше їде, і екскаватор краще копає...

Виграла модель GPT-5, розв’язавши 12 з 12 задач.

Підписатись на коментарі