ChatGPT відповідає неправильно на 52% питань щодо програмування — дослідження

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

На конференції Computer-Human Interaction було представлене дослідження, згідно з яким 52% відповідей на тему програмування, які генерує ChatGPT, є неправильними.

Науковці переглянули 517 запитань у Stack Overflow та проаналізували спроби ChatGPT відповісти на них.

«Ми виявили, що 52% відповідей ChatGPT містять дезінформацію, 77% відповідей є більш багатослівними, ніж відповіді людини, а 78% мають ті чи інші розбіжності».

Команда також провела лінгвістичний аналіз 2 000 випадково вибраних відповідей ChatGPT і виявила, що вони були «більш формальними та аналітичними», а також відображали «менш негативні настрої».

Більше того, дослідники опитали 12 програмістів (звісно, це невелика вибірка) і з’ясували, що 35% з них надають перевагу ChatGPT, а 39% не помічають помилок, згенерованих ШІ.

Останнім часом програмісти звертаються до чат-ботів за допомогою з кодом — це, своєю чергою, завдає удару по таких компаніях, як Stack Overflow, яка минулого року була змушена звільнити майже 30 відсотків своїх співробітників.

А як часто ви «підловлюєте» ChatGPT на помилках? Бувало таке, що ви використали код, згенерований ШІ, і лише згодом виявили, що він був неправильний?

👍ПодобаєтьсяСподобалось5
До обраногоВ обраному0
LinkedIn

Найкращі коментарі пропустити

Баш скрипт швидко написати норм. Якщо умову треба описувати більше ніж 5 реченнями, то в абсолютній більшості випадків виходить повна фігня. При чому, якщо задати декілька послідуючих уточнень, то він починає плавати в контексті і генерувати несумісний з попередніми умовами код. Ось вам і штука, яка «повинна замінити програмістів».

80% коду у відповідях на Stack Overflow містить помилки та дезінформацію :)

Але з ChatGPT можна в діалозі більшість помилок виправити, а на Stack Overflow вони залишаться назавжди :)

Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Зверніть увагу що ChatGPT може і в середньому найпотужніша модель на ринку, але от у якихось вузьких задачах може бути трохи гірша ніж спеціалізована на якомусь домені модель, на приклад на програмуванні або конкретно на мові Python наприклад. Ось LeadreBoard таблиці із порівнянням які можуть досягати 70% і навіть 85% humaneval-python. Я би був обережним із Китайськими моделями, по перше через секюріті по друге усі звісно можуть, але ці як на мене більш часто можуть спеціально підлаштовувати модель до тестових сценаріїв, щоб набрати більше балів, тому треба самому тестувати а не чисто надіятись на Leaderboards. Якщо ви їх вже берете то принаймні беріть тільки моделі у Safetensor форматі.

Ось декілька цікавих варіантів моделей із більше ніж 52%:
ollama.com/...​library/deepseek-coder-v2
huggingface.co/NTQAI/Nxcode-CQ-7B-orpo

Повний список
huggingface.co/...​igcode-models-leaderboard

Конвертувати модель щоб можна запустити у себе на компі ось так:
dou.ua/forums/topic/49295

Теж саме і по SQL. Деякі моделі можуть бути краще саме в цьому і тільки в цьому. Тому постійно молитись тільки на один єдиний ChatGPT не має сенсу. І просто опиратись на одну тільки LLM модель буде звісно видавати не найкращій результат тому треба будувати RAG додаток навколо моделі щоб покращити результат.

Ну те що воно вже відповідає правильно на 2% більше вже достатньо щоб написати додаток-обгортку який би міг суттєво збільшити це значення.

Тут ось написано основні принципи такого додатку-обгортки навколо моделі. Зверніть увагу ще на вже готові опенсорсні рішення додатків-обгорток наведенні в статті: Devika & OpenDevin.

dou.ua/forums/topic/49083

77% відповідей є більш багатослівними

Рілі? Мій досвід 100% з великим запасом

Банально копіювати зі стек оверфлоу не розуміючи, що копіюєш в принципі не сильно розумніше ніж генерувати код за допомогою ШІ і не дивитись що воно згенерувало.
І в цілому якщо ви відповідаєте на питання людей в Stack Overflow то зрозумієте, що більшість новачків не здатна чітко поставити питання, власне які і джуніори та трейні на роботі. Мідли вже здатні. Не те щоби ШІ не могли з цим нічого зробити. Скажімо Акінатор може. ШІ це не тільки штучні нейронні мережі, ще експертні системи, логічне програмування Prolog тощо.
А так можна провести досліди на студентах і подивитись який процент не правильних відповідей з запитань по програмуванню нададуть вони.

Його буває заносить прям сильно не туди. I вiд себе щось видумує на основi того що часто зустрiчається. А ще був прям сильний баг не по коду — потрiбно було порахувати вагу цилiндру — вказав матерiал, дiаметр, довжину — вiн порахував — я не перевiряв чи правильно — а потiм прошу взяти такiж параметри але довжина в два раз бiльша — вiн рахує що в такому випадку вага буде умовно на 7% бiльшою. Я вказую що це помилка — а вiн словами так i пише — не зважаючи на те що довжина в два рази бiльша — вага буде бiльшою на 7%.
Ну i часто буває що коли вказуєш на помилку вiн пише — вибачте — i дає той же варiант з тiєю помилкою що ранiше.

Ну, таке... Відкрив першоджерело: dl.acm.org/...​f/10.1145/3613904.3642596
І навіть там немає згадки про те, яка саме модель перевірялась. А результати використання ChatGPT 3.5 та 4 відрізняються дуже суттєво.

Власне EXAMPLE OF INCORRECT CHATGPT RESPONSE A на мій погляд правильний. В chatgtp питають як завершити програму, що крешиться. Він чітко відповідає — пофіксати out of range умову з OR на AND.
Факт того, що питання не є однозначним, і що проблема в зовсім другому — свідчить про некоректність підібраних питань.

Ну... Э таке поняття як ентімема. Це те, про що не йде мова явно, але це мається на увазі. Наприклад:
— Хочере кави?
— Дякую, але вже пізно, я після кави я не засну
Тут ентімема «я хочу заснути вночі»

Як раз перевага нейромереж полягає у тому, що вони досить гарно відчувають ентимеми, що спрощує спілкування з ними. Цінного нейромережі значно зменшиться, якщо треба буде описувати у подробицях кожен чих.

Тут скоріше питання у тому, чи зможе людина зрозуміти правильно ці ентимеми.

Як раз перевага нейромереж полягає у тому, що вони досить гарно відчувають ентимеми, що спрощує спілкування з ними.

Не знаю які нейромережі ви маєте на увазі, але все що основане на LLM вимагає максимальної деталізації запиту і тд тп. Тобто ящо для вищевказаного EXAMPLE A дати запит — refactor code, то результат буде повністю правильний.

Корпоративний Github Copilot сьогодні на дві голови вищий за умовний Chat GPT 3.5, який довго був ледь не стандартом.
Памʼятаю, описував які таблиці в мене є і який SQL запит мені треба побудувати. То ще півроку тому 95% відповідей тупо не працювала. Зараз же переважна більшість відповідей не те, шо робоча — вона в принципі така, яку я очікував побачити.

Але програмування то таке. Я он кожні пару місяців прошу всі нейронки написати вірш або пісню на якусь конкретну тему. То сказати, шо прогрес просто єбічєский — це нічого не сказати

Подивіться в сторону Wren AI опенсорсного додатку.
Я скоро про це статтю опублікую, вона готова висить на модерації. На англійській мові моя стаття

medium.com/...​e-good-stuff-e4d57c0c181c

Яка кількість випадків написання коду, яку пише людина, є корректним з першого разу?

Людина пише код ітеративно. А чатжпт тобі видає простиню коду, який з першого разу (крім всяких хело ворлдів) не часто те що не працює, а й просто не компілюється. А якщо навіть і працює, то буває зачасту не враховує нюансів, навіть заданих в умові. В більшості випадків швидше і коректніше написати код самому. Навіть на скриптах, більших за 20 рядків. Я уже не кажу про проекти з контекстом у сотні файлів з кодом.

Тому LLM на даний час лише інструмент для пришвидшення деяких рутинних процесів і не заміняє SE фахівця.

Бо це хибне очікування. Ми очікуємо від нейронної мережі, що її точність буде як у математичної функції — 100 відсоткова.

Людина пише код ітеративно

— це правильно очікування, але тільки по відношенню до LLMки, бо в проактивній комунікації воно здатне видавати значно кращий результат ніж більшість шкіряних мішків

А чатжпт тобі видає простиню коду, який з першого разу (крім всяких хело ворлдів) не часто те що не працює, а й просто не компілюється. А якщо навіть і працює, то буває зачасту не враховує нюансів, навіть заданих в умові.

Це, фактично, не правильне використання інструменту, тому і складається хибне уявлення про «не працює»

Почуваю себе у безпеці, поки є люди, які думають, що гпт можна зготувати тз і отримати готовий код на виході).
Боже, та це навіть з живими людьми не спрацює

Те, що я у нього питав по програмуванню, виявилося 100% хибним. Але якщо попросити написати hello world — то з цим він впорається.

аж цікаво що ви такого питали, можна хоч один приклад?

Ось питав за оператор is в groovy. Виявилося, що такого оператора немає, а ChatGPT набрехав про нього і навіть зробив приклади, як користуватися цим неіснуючим оператором.

Using the Internet, tell me about the “is” operator in the groovy programming language and give examples of its use.


As of my last update in September 2021, Groovy is a dynamic programming language that runs on the Java Virtual Machine (JVM). It’s designed to be concise and expressive, often used for scripting, automation, and rapid development. The is operator in Groovy is used for type checking and type casting.

Here’s how the is operator works in Groovy:

Type Checking:
The is operator is used to check whether an object is an instance of a particular class or type. It returns a boolean value (true or false) indicating whether the object is of the specified type. If the object is an instance of the given type or a subtype, the operator evaluates to true; otherwise, it evaluates to false.

Type Casting:
The is operator can also be used for type casting. If you’re certain that an object is of a specific type, you can use the as keyword along with the is operator to cast the object to that type.

Here are some examples to illustrate the use of the is operator in Groovy:

class Animal { }
class Dog extends Animal { }
class Cat extends Animal { }

def dog = new Dog()
def cat = new Cat()
def animal = new Animal()

// Type Checking
assert dog is Dog         // Evaluates to true
assert dog is Animal      // Evaluates to true, because Dog is a subtype of Animal
assert cat is Cat         // Evaluates to true
assert cat is Animal      // Evaluates to true, because Cat is a subtype of Animal
assert animal is Animal   // Evaluates to true

assert dog is Cat         // Evaluates to false
assert animal is Dog      // Evaluates to false

// Type Casting
def animalAsDog = animal as Dog  // This will throw a ClassCastException at runtime
if (dog is Dog) {
    def dogCopy = dog as Dog     // Type casting from Dog to Dog
    println("Dog type cast successful")
} else {
    println("Failed to cast to Dog")
}

тому що чат-гпт гарний помічних для досвідчених розробників, а вчорашні трейні, які хочуть за допомогою чат гпт виглядати сьогодні сеньорами — миттево паляться і фейляться.

Було б трішечки неприємно, як би чат гпт міг ідеально правильно відповідати на усе підряд на будь яке питання. Особисто мені б це не сподобалось, бо ті знання, які я набирав кілька років, і якими користуюсь сьогодні, дістались би лише за 20 баксів будь кому.

То чому б тоді за допомогою чату й не наймати? Швидкий та якісний відсів. Пропозиція для фрілансерів хед хантерів (тих хто ще так не робить)

Особисто мені б це не сподобалось, бо ті знання, які я набирав кілька років, і якими користуюсь сьогодні, дістались би лише за 20 баксів будь кому.

Ви все одно будете своїми знаннями користуватися швидше і ефективніше ніж той, хто спілкується з ChatGPT (бо він може навіть не знати, про що треба запитати). Так що тут хвилюватися не треба. Принаймні, найближчі 10-20 років ))

Чим більше досвіду — тим більше часу потрібно щоб згадати. База даних велика і мала — яка буде працювати швидше?

Я б сказав, що у випадку людини, залежить від її фізіологічних особливостей. Бо є такі люди, що не пам’ятають свій код, який вони написали в минулому місяці.

я мав наувазі, що якщо гпт розвинеться до рівня «ось тобі макети приложухи» і детальний опис, що вона має робити (з точки зору користувача), ось тобі open api опис апішки, і на виході отримуємо готовий збілжений пакет або проект, готовий до білда.
То це було б проблемою для мене і для більшості інших у секторі. Та і для інших секторів так само.

Рано чи пізно це відбудеться, бо не існує фундаментальних перепон, чому ШІ не може досягти рівня людини та перевершити його. Але, можливо, це буде потребувати багато енергії та обчислювальних потужностей, і найняти людину буде дешевше.

А спитаєш у джуна а він скаже: що таке груві? )

Такі питання із розрядку: “якого кольору стопкран на літаку?” Тобто намагання підловити використовуючи слабкі сторони генеративного АІ. В реальному житті в реальній роботі ти такого питання не поставиш. Ти спитаєш як порівнювати об’єкти в груві.

Та навіть якщо і поставиш, з другої спробив він виправляється:

I apologize for the confusion earlier. You’re right to question the use of the is operator in the way I described. In Groovy, the correct method to compare references, ensuring they point to the exact same object (like == in Java), is not provided by an is operator.

In Groovy, == is indeed used for checking object equality, which is equivalent to calling equals() in Java. To check if two references are exactly the same (i.e., they point to the same object in memory), you would use the identity check provided by the is() method, not an is operator. Here’s how you can use it:

String a = new String("hello")
String b = a
String c = new String("hello")

println(a.is(b)) // prints true, because a and b reference the same object
println(a.is©) // prints false, because c is a different object
Thank you for catching that mistake, and I appreciate your patience! If you have any more questions or need further clarification, feel free to ask.

PS Юзай останні версії а не 3.5

На даному прикладі я пробував використати ChatGPT замість класичного інтернет пошуку. Я не супер фахівець по groovy, тому звідки мені знати, чи набрехав мені ChatGPT? Відкрив groovysh, набрав там код — і побачив, що воно не працює. Потім зробив класичний інтернет пошук, відкрив документацію по groovy, не знайшов там оператора is.

Як результат, ChatGPT замість економії часу, змарнував його.

P.S. Аналогічно й інші питання на кшталт «як за допомогою WinAPI дізнатися ....» видає повну маячню, вигадує неіснуючі структури, константи, і т.д.

гпт не дуже шарять у вузьких технологіях. Чим більше ресурсів — тим краще.
www.tiobe.com/tiobe-index
TypeScript має долю у 0.24%, і займає 50те місце у рейтингу.
Груві — це взагалі, що таке і чому воно у списку «next 50 languages»?

Тому я і кажу, що для мене ChatGPT в програмуванні не несе жодної користі. І простий пошук в гугл дає кращий результат (і йому я більше довіряю). А от в роботі з текстом він показує себе дуже добре: дати короткий опис, переписати, скласти лист, тощо.

І все-таки, спитати з чатгпт в рази швидше:

1. Спитав
2. Скопіпастив код, не запрацував
3. Скопіпастив йому помилку, він вибачився і видав новий код
4. Запрацювало

З гуглом
1. Гуглиш
2. Серед видачі шукаєш подібні посилання
3. Клікаєш по кількох з них щоб знайти потрібне
4. Читаєш документацію переходячи по кількох лінках всередині сайту

Ну, і як я сказав, якби ти спитав як у груві порівнювати об’єкти, получив би відповідь з першого разу. Запитай у гугла таке ж саме «how to use „is“ operator in groovy», задовбешся по лінкам переходити поки не зрозумієш що немає такого оператора.

Насправді, мені потрібно було порівняти типи, і я пам’ятав, що в якісь мові програмування був для цього оператор «is», але чи це groovy чи ні — я сумнівався, і якщо це groovy — то хотів дізнатися, як він працює (можливо він перевіряє не типи, а порівнює об’єкти).

З гуглом, який виводить на офіційну документацію або відомі сайти (наприклад baeldung), я впевнений в результаті. З ChatGPT ніколи не знаєш, де він тебе обманув.

на днях попросил написать процедуру деления для TIS-100, так чат догаллюцинировался до того, что у него команда битового сдвига появилась ))

Баш скрипт швидко написати норм. Якщо умову треба описувати більше ніж 5 реченнями, то в абсолютній більшості випадків виходить повна фігня. При чому, якщо задати декілька послідуючих уточнень, то він починає плавати в контексті і генерувати несумісний з попередніми умовами код. Ось вам і штука, яка «повинна замінити програмістів».

В 4о вже не має цієї проблеми. Тримає контекст з попередніми відповідями і запитами в рази краще.

Я зараз про 4 і 4о і кажу. Так, плачу за них 20 баксів, але щодо саме програмування рутини мені більше допомагає Copilot.

Це перша модель. Зараз ми маємо просунутий генератор контексту. Якому абсолютно однаково, що за контекст — список музеїв в барселона на вікенд, чи баш скріпт для друку чогось там.
А що буде років через 5? а з такими висококваліфікованими спеціальностями як frontend/ui ?
ps
не зміг уявити умову на 5 речень, можна навести приклад ?

Вчора було ясно, сьогодні був дощ, значить завтра буде потоп

Коли використовуєш алегорії, то може виникнути ілюзія, що ці алегорії дійсно мають якесь відношення до реальності.
Питаються в гуру
— Коли ШІ інтелект замінить frontend розробників?
Гуру з розумним виглядом через 5 годин
— Вчора було ясно, сьогодні був дощ, значить завтра буде потоп

Сподіваюся ви зрозуміли, що екстраполяція штука дурна.

На роботі була задача розпарсити відносну дату типу ’yesterday at 2 pm [Europe\Berlin]’ в UTC і в юнікс таймстемп. Ну і вирішили заюзати чатгпт 3.5. Простий промт на одне речення в 60% випадків повертає правильний ютц час. Ще в 20% чомусь повертає з похибкою рівно в 24 години. І при цьому в 90% усих випадків юнікс таймстемп не відповідає розпаршеному часу в ютц. Проапгрейдились до 4 і ситуація стала трішки кращою, але генерація результату стала займати в 2-3 рази більше часу. От вам і AI, який «скоро забере вашу роботу».

гугл мепс також в половині маршрутів робить помилки, так що тепер, по паперових картах їздити? Ох уж ці жовті новини.

Та не робить він настільки критичні помилки. Можливо пробки не враховує так добре як наприклад Waze, але тут більше питання до сервісу збору даних про затори, а не до побудови маршруту.

А чому до чатгпт можна ставитись критично за неточності у відповідях, а до гугл мепс за неточні і не оптимальні маршрути — ні? )

тому чатжпт, а не гугл мапс дуже скоро забере у кожного другого роботу

отже якщо вiн її забере, то хай хоча б робить нормально, а не тяп-ляп

в половині маршрутів робить помилки

Це ж які ви такі маршрути будуєте? В мене гугл мепс (або waze) приводить куди треба в 95% випадків. Так, може не завжди оптимально, але куди треба — це точно.

Олег Дорожко, [5/28/2024 12:07 AM]
Генерація тепер не питання. Тепер питання — створити логіку всесвітню. Тобто єдиний галактичний словник словосполучень і частот. Які можуть змінюватися у залежності від контекстів, у яких примінятися будуть.

Олег Дорожко, [5/28/2024 12:08 AM]
Ось приклад невеличкої логіки: dou.ua/...​rums/topic/48728/#2829550

Що? Помилки у відповідях? А як же замінити всіх программістів на нейромережі? Я вже змінив роботу на сантехника, а тут ось воно як...

80% коду у відповідях на Stack Overflow містить помилки та дезінформацію :)

Але з ChatGPT можна в діалозі більшість помилок виправити, а на Stack Overflow вони залишаться назавжди :)

Це якісь ваші фантазії про 80%. СО непогано саморегулюється, помилки і дезінформація ідуть в мінуси, правильні відповіді плюсуються. Звісно є виключення, але це скоріше рідкість. Може чисто технічно можна нарахували 80% неякісних відповідей без урахування їх рейтингу, але це не дуже справедливо так порівнювати. Треба брати топові відповіді і тоді 80% дезінформації ви ніяк не нарахуєте

80% коду у відповідях на Stack Overflow містить помилки та дезінформацію :)

і саме вони зазвичай замінусовані,
бо їх бачать АДЕКВАТНІ ЛЮДИ,
а ці всі чатижпт іноді навіть загуглити адекватно не здатні навіть найпростіші питання, тобто навіть до штучного інтелекту там насправді ще досить далеко,
на що тільки пішла така колосальна потужність...
хоча писати тексти, на основі своєї величезної бази (яка вважається деким вкраденою, нагадаю), дійсно може очікувано швидше за людину, підправити тільки трохи потім

Але з ChatGPT можна в діалозі більшість помилок виправити

і хто же ж саме буде «у діалозі виправляти помилки» а хто їх «виявляти»?

Той самий, хто виявляє, виправляє та мінусує помилки на SO :)
Код зі Stack Overflow «як є» в більшості випадків також краще не використовувати :)
Але у випадку GPT фідбек набагато швидший, і контекст ближчий до реальної задачі.

ChatGPT — це інструмент, який вирішує велику частину «механічних» та «тактичних» задач, даючи можливість зосередитися на більш розумній діяльності.

і хто же ж саме буде «у діалозі виправляти помилки» а хто їх «виявляти»?

то зробить інший жпт

Саме дослідження: dl.acm.org/...​f/10.1145/3613904.3642596

> And fed that to the free version of ChatGPT, which is based on GPT-3.5.
> For the additional 2000 SO questions, we developed an automated script to prompt ChatGPT with the gpt-3.5-turbo API.

З цього місця можна вже не читати. Різниця між 3.5, 4 та 4o дуже велика.

Останніми роками

ChatGPT was launched on November 30, 2022

через три дні буде півтора роки.

Яку саме версію тестували.

А скільки із цих питань були коректно сформульовані та задані з необхідним контекстом?

Регулярки допомагає писати, нетривіальні sql запити, коли маємо select if з купою умов. І улюблене: перепиши цей текст як масив з такими-то стовпцями.

Регулярки допомагає писати,

хтось потім дуже зрадіє, коли буде цю регулярку фіксати
sql запити переписувати — також одне задоволення

Її не треба буде фіксити. Вона правильно працює.

Вона правильно працює.

бо вам так хочеться думати?
чи ви це математично довели?
чи написали 1 тест?
чи там просто «.*»?

Ви доводите математично кожну регулярку? Круто. Всім би так.

нормально він там все генерує, якщо розглядати його як мідла-джуна, який дуже любить писати код, але інколи пише дічь і за ним треба перевірити.

з першого тижня на платній версії сиджу, що там генерує 3.5 чи шо там зараз безкоштовно дають — гадки не маю.
Свої 20 евро він окупає сповна.

Повнота контексту + формат очікуваної відповіді + особистий code review перед використанням + швидкий дебагінг. Так виходить ефективніше.

Використовую Copilot, було таке, що довго дебажив помилку в нагенерованому коді. Але приріст продуктивності все одно з запасом покриває час на дебаг, та й не факт, що без нього я б не накосячив в іншому місці. Зараз відчуваю майже фізичне небажання писати шаблонний код, який замість мене пише Copilot (типу функцій, які зрозуміло з імені що роблять). Проте я буду задовбувати його питаннями типу «що це таке» і «чому саме так,» якщо не розумію чогось, а потім іще нашвидкуруч передивлятимусь, чи він не збрехав, якщо це код для проєкту. Дуже допомагає, якщо треба написати якийсь скриптик, щоб дослідити дані: просто просиш словами і отримуєш результат, потім можна попросити підправити якісь речі, тут уже не до якості чи багів, якщо працює, то добре. Ну і це все добро працює відразу з контекстом просто як віконце в студії, тобто завжди під рукою.

А вам не спадає на думку, що чим більше роботи за вас робить ШІ, тим більше спокуси і причин у начальства вас звільнити, а вашу роботу передати для виконання ШІ?

Ні, тому що писати код — це тільки незначна частина роботи. Чим більше роботи за мене зробить ШІ, тим більше роботи зможу зробити я з ШІ. І навіть коли нарешті ШІ зможе робити все те, що роблю я, це буде прекрасно, бо я зможу мати в підпорядкуванні ШІ, якому можна сформулювати людською мовою задачу, отримати результати, співставити з бажаним і повторити. Але повертаючись до питання, зараз ШІ економить час приблизно так, як його раніше економило автодоповнення і підсвітка синтаксису. Не те що я не зміг би писати код без них, але з ними значно зручніше.

Це так не працює. Може років за 5 начальник зможе поставите коряве ТЗ з умовами виконання для AI, піти курити бамбук додому, а зранку прийде і буде скомпільований додаток, але не сьогодні. Це все одно буде набір якихось попередньо складених темплейтів, форм тощо. Так, вони будуть гнучкі, і може навіть підв’язані (корректно!) до бази даних, причому краще, ніж це зробить сьогодняшній джун, включаючи оптимізації.

Але коли такий AI вилізе на ринок, боятись буде потрібно не тільки розрабам, а взагалі усим.

Копілот використовую. Помилки його це тренування моїх талантів.

Для рутинних задач норм, але щось більш складне викликає проблеми, простіше самому розбиратись ніж пробувати виправити код чату гпт.

Але не в цьому справа, тут напевно важлива динаміка. Умовно скільки відсотків задач він міг виконати рік назад і скільки зараз

Приклади чого саме? Якщо мова про динаміку, то ні, сам би хотів такі цифри побачити)

ІМХО ChatGPT гарний помічний досвідчиним девав. Початківців він тільки збива з пантелику.

Не початківцям а... як би це аккуратно виразитись... людям з обмеженим інтелектом, які «а напиши мені програму так щоб було гарно і все працювало! ой, а що воно не працює? ох і тупе ваш штучний інтелект, хайп»

Я вот також, можна сказати, початківець в лінуксі, контейнерах, но з домогою чатгпт розібрався зі всім і задеплоїв сервіс за 2 дні. Без нього, мінімум тиждень сидів би мануали читав і головою бився би об помилки. А тут, скопіпастив йому output з консолі, він тобі новий докер скрипт скинув з додатковими пакетами які треба установити, чи з додатковими environment variables. І все пояснює, що до чого.

Я вот також, можна сказати, початківець в лінуксі, контейнерах, но з домогою чатгпт розібрався зі всім і задеплоїв сервіс за 2 дні. Без нього, мінімум тиждень сидів би мануали читав і головою бився би об помилки. А тут, скопіпастив йому output з консолі, він тобі новий докер скрипт скинув з додатковими пакетами які треба установити, чи з додатковими environment variables. І все пояснює, що до чого.

Для простих шел скриптів від найкраще працює. Але якщо треба з нуля написати наприклад трохи видозмінені хрестики-нулики, задавши у інпуті тільки умови, не згадуючи саму назву — ось тут уже починається цікаве.

Юніт тести він ще може генерувати, десь в 20 відсотках випадків вони навіть компілюються з першого разу. Але він у цьому разі пише юніт тести і на баги в коді) Уже декілька разів в код рев’ю помічав, коли дев хоче перекласти всю брудну роботу на ЧатЖПТ, при тому повністю похєривши весь сенс юніт тестування. Зате тест кавередж 90%+ :)

Але він у цьому разі пише юніт тести і на баги в коді)

😂😂😂😭

Для простих шел скриптів від найкраще працює.

Так, для скриптів, для простих запитів як зробити то, як зробити сьо, поясни це, як працює це, напиши пасрер для он цього, відрефактори це, скопіпастив кусок кода вставив і все, це 99% роботи програміста те що робимо кожен день і він тут сильно корисний, осоливо якщо треба щось не в основному твоєму стеку.

Але якщо треба з нуля написати наприклад трохи видозмінені хрестики-нулики, задавши у інпуті тільки умови, не згадуючи саму назву — ось тут уже починається цікаве.

Ніхто в здоровому глузді не буде його для такого використовувати. Чомусь всі думають що коли кажуть що АІ вміє писати код, то це значить що можна специфікацію від продукта йому скинути і він цілу програму напише. А якщо не вміє пистаи цілі програми під ключ, значить говно, хайп, не можна викорситовувати, тільки шкодить, і т.д. Колись і таке буде, але не зараз.

правильно поставлене запитання\завдання це 50% правильної відповіді/рішення

Ни разу не использовал код, написанный ChatGPT. Выдавить из него что-то полезное по неизвестной тематике — проще самому разобраться. Использовать для рутинных задач — так я быстрее пишу, чем проверяю написанное им.
Но регулярно использую его для написания текстов: презентации, документация, текстовки для демо и т.д. Там он очень хорош.

Наче в моделях існує така проблема як «пере-навчання моделі» ті хто працює з моделями знає.

Порівнював Copilot із chatGPT:
1) питання щодо Python / Flask, Python / FastAPI краще виходять у Copilot
2) питання щодо Snowflake краще виходять у chatGPT.

Стаття без згадки про технології мало змістовна.

дослідники опитали 12 програмістів (звісно, це невелика вибірка)

Це взагалі ні про що.

Підписатись на коментарі