Все ИИ-агенты для программирования с громким треском провалили новый бенчмарк чистоты и качества код - Программирование

Все ИИ-агенты для программирования с громким треском провалили новый бенчмарк чистоты и качества код 11 мар, 10:03 3661149 В конец треда | Веб

Все ИИ-агенты для программирования с громким треском провалили новый бенчмарк чистоты и качества кода!

Alibaba протестировала ИИ-агентов для программирования на 100 реальных кодовых базах, каждая из которых охватывала 233 дня разработки. Результат - полный провал ИИ в программировании.

Выяснилось, что один раз сгенерировать код и пройти тесты — не так уж сложно. А вот поддерживать код в течение 8 месяцев и при этом не ломать всё подряд — именно здесь ИИ с огромным треском проваливает задачу хуже джуна.

SWE-CI — это первый бенчмарк, который измеряет долгосрочную поддержку кода, а не разовые исправления багов. В каждой задаче рассматривается 71 последовательный коммит, то есть реальная эволюция проекта во времени.

Для всех ИИ-сектантов, распространяющих крики «ИИ скоро заменит программистов», это очень плохой знак. Так что для всех, кто уже хоронил профессию программиста и рассказывал про «осталось пару лет», новости так себе. Похоже, между «умеет написать еле работающий прототип» и «умеет быть нормальным инженером и поддерживать кодовую базу проекта» по-прежнему огромная пропасть.

https://x.com/alex_prompter/status/2030331477918126286

Ответы661179 661213 707335 707630 719705

2 11 мар, 10:39 3661179

>>661149 (OP)
Ты в каждом треде будешь срать этой хуйней, шиз? Кричи еще громче, о том как анальники тольковыиграле.

Ответы661194

3 11 мар, 10:45 3661194

>>661179
Терпи, ии говно соевое

67 Кб, 1024x677

4 11 мар, 11:00 3661213

>>661149 (OP)
ты идёшь на хуй по причине конченный доолбоеб.

ваши стетейки в анус себе запихните и идите бляди решать свои алгоримы. не лезьте в четверную промышленную революцию своими костлявыми пальцами.

только кончь последняя будет отрицать, что ИИ работает.
для этого достаточно оплатить 20 баксов и подключить проксю или впн и лично убедиться.

но у вас тупоголовых блядей и это не получается, ещё айтишниками зовётесь.

>именно здесь ИИ с огромным треском проваливает задачу хуже джуна

это просто ебаный пиздежь. почему у меня ИИ пишет хороший код, а в ублюдских статеечка х - нет?

>А вот поддерживать код в течение 8 месяцев

ты код среднестатистического кожаного мешка не сможешь поддерживать и через месяц, не говоря уже про 8 месяцев или несколько лет. промышленный код, написанный людьми априори дармовый. исключения - всякие библиотеки, где код вылило сообщество. в типовых проектах код ВЕЗДЕ одинаково дерьмовый.

Ответы661219 661221 707633

5 11 мар, 11:05 3661219

>>661213

>скоро

Хуя какой мощный подрыв ии-сектанта кек. Видимо за живое задело :)

Иди знакомься с научными исследованиями https://arxiv.org/abs/2603.03823

Где ты, а где ученые?

>ты код среднестатистического кожаного мешка не сможешь поддерживать и через месяц

Вот это самопроекции неосилятора. Сколько лично ТЫ написал проектов, поддерживаемых более нескольких месяцев с помощью ИИ?

>это просто ебаный пиздежь. почему у меня ИИ пишет хороший код, а в ублюдских статеечка х - нет?

Потому что ты не пробовал поддерживать его на протяжении несколькиз месяцев или даже года. Это минимальное требование любого продакш-реди кода даже в нищей ИТ-галере под Самарой. Но выходит что даже уровень нищей самарской ИТ-галеры - недосягаемых для 100% нейронок мира кек.

Ответы661224 719699

6 11 мар, 11:06 3661221

>>661213
LLM-агент порвался, давайте новый.

7 11 мар, 11:10 3661224

>>661219

>Сколько лично ТЫ написал проектов, поддерживаемых более нескольких месяцев с помощью ИИ?

Два проекта успешно сопровождаются с помощью Claude Code

>Иди знакомься с научными исследованиями

Зачем мне с ними знакомиться? Что бы что? Что бы потом писать на борде для дитишек визги про ИИ? Где ты, чмо ебучее, и где корпорации, которые нанимают лучших ученых и инженеров для работы в этой сфере?

Ответы661239 661244

8 11 мар, 11:22 3661239

>>661224

>Зачем мне с ними знакомиться? Что бы что?

Чтобы не быть ИИ-промыткой, коей ты сейчас и являешься

Ответы661266

9 11 мар, 11:23 3661244

>>661224

>Два проекта успешно сопровождаются с помощью Claude Code

Сопровождаются, а не написаны с нуля ИИ как было написано в ОП-посте.

Расскажи подробнее про свои сопровождаемые проекты. Кодовая база? Количество программистов в команде?

Ответы661266

10 11 мар, 11:39 3661266

>>661239

>Чтобы не быть ИИ-промыткой, коей ты сейчас и являешься

я ещё раз вопрос задам: где ты, пидоран, и где люди, которые работают в ТОП корпорациях, которые пилят сейчас всю ИИ-движуху?

Ты пидоран мне какие-то статеечки кидаешь, хотя вангую, работаешь на каком-нибудь всратом проекте макакой на впопулярном попсовом стеке для обезьян и что-то тут пытаешься мне обосновывать статеечками, в которых сам нихуя не понимаешь.

>>661244

>Сопровождаются, а не написаны с нуля ИИ как было написано в ОП-посте

Там ничего не написано про "с нуля". Там автор написал только то, что хочет видеть.

> Результат - полный провал ИИ в программировании

О каком провале вы пидоры тут вещаете, если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу?

Ответы661270 661277

11 11 мар, 11:42 3661270

>>661266

>которые работают в ТОП корпорациях

Что-то уровня эпохи доткомов кек. В итоге 90% этих манякорпораций успешно пукнули хрюкнули

>О каком провале вы пидоры тут вещаете, если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу?

Верю! Верю, как же тут рандомнмоу пидоранчику с дипломом мухгу из под засратова не поверить!

Ответы661276 661292

12 11 мар, 11:44 3661276

>>661270

>если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу

В то что твоя ИИ-слоп машина успешно пишет тонны говнослопа я как раз верю и верю что пишет она его успешно. Но вот в дальнейшнюю maintability сего поделия черег годик-полтора конечно поверить весьма проблематично. Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.

Ответы706911

13 11 мар, 11:45 3661277

>>661266

>если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу

Ответы661292

14 11 мар, 11:53 3661292

>>661277

>Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.

Я пишу код 15 лет. Ты правда думаешь что я не способен оценить качество ИИ генерации, насколько этот код плох?

>>661270

>Верю! Верю, как же тут рандомнмоу пидоранчику с дипломом мухгу из под засратова не поверить!

Ну как я и говорил - ты даже не пробовал ИИ, а усираешься тут, клоун ты ебаный, долбоеб потешный.

Ответы661308 661312

15 11 мар, 12:01 3661308

>>661292
У тебя случайно не пхп проект?

16 11 мар, 12:04 3661312

>>661292

>Я пишу код 15 лет

Ты тот самый пхпшник?

17 11 мар, 13:00 3661362

>чистоты и качества код

Похуй. Разбираться в нем все равно будут только нейросети

Ответы661462

18 11 мар, 14:19 3661462

>>661362
страшн за такое говнобудущее

19 16 мая, 03:32 3706911

>>661276

> Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.

Не дадут им разбирать. На раззявленный по результатам роток CEO менеджерье поменьше будет брать проектных петушков "чиста маленькую праблему паправить и все, тут уже норм праграмист написал прадукт". Слоп же не отличить визуально с первого взгляда, без достаточно трудоемкого разбора.

Это по тем проблемам, которые вообще найдут. 95% слопа уйдет естественно в корзину вместе с ИИ-ферст организациями, но на их место встанут новые. Деньги кабанью халявные дадут на это - государства, спонсороинвесторы, копрономика на это два столетия точилась.

20 16 мая, 21:13 3707335

>>661149 (OP)

> чистоты и качества

Нинужно. Если клод не справляется — пусть переписывает заново.

Ответы709945

21 17 мая, 17:20 3707630

>>661149 (OP)
Это то о чем умные люди говорили с момента появления агентов. Программирование не сводится к набиванию тысяч строк кода, программисты как были нужны так и останутся.

22 17 мая, 17:22 3707633

>>661213
ИИ прекрасно работает же, как замена IDE. Только не заменяет человека который этим рулит и решает что надо сделать.

23 21 мая, 08:27 3709945

>>707335
Платить за это будешь ты

24 10 июня, 12:11 3719699

>>661219
Вобще сученые в говне моченые, они (многие) в проганье особо и не могут. Пишут индусскую лапше хуйню в основном. Задрочили олимпиадные задачки и учат этому мимокроков. Чувак сам придумал тесты, сам прогнал бесплатного агента который у него запустился на плате что была под рукой. Своял статью и все.

Ответы720062

25 10 июня, 12:40 3719705

>>661149 (OP)
Ну и отлично, теперь у Anthropic и OpenAI появилась новая метрика качества, которую будут использовать для обучения следующих моделей.
Вот увидишь, через полгода они прекрасно и такие задачи будут решать. В 2023-ем тоже многие ржали и говорили, что нейронка ничего не умеет. А в итоге нейронки сэволюционировали и теперь ржут нал нами. Каждый раз, когда ты указываешь на проблемы нейронок, ты буквально вбрасываешь в медиапространство готовые инструкции по их улучшению.

Ответы720060

26 10 июня, 22:08 3720060

>>719705
в статье рассматриваются нейронки двухлетней давности, причем далеко не топовые. всякие квены, дипсики и прочий китайский хлам. среди топов клод и он нормальные результаты показал. и это, повторю, на данных двухлетеней давности. (стстья вышла в марте. там наблюдение 220 + 70 дней + обработка, плюс написание статьи, плюс апрув - это еще минимум полгода)

27 10 июня, 22:10 3720062

>>719699

>Вобще сученые в говне моченые, они (многие) в проганье особо и не могут. Пишут индусскую лапше хуйню в основном.

в общем да, 99,99% статей в рубрике ML - это литералли британские ученые в китайской обертке. генерируют слоп чтобы KPI в алибабе выгрести и премию получить.

Обновить тред