image.png126 Кб, 533x651
Все ИИ-агенты для программирования с громким треском провалили новый бенчмарк чистоты и качества код 3661149 В конец треда | Веб
Все ИИ-агенты для программирования с громким треском провалили новый бенчмарк чистоты и качества кода!

Alibaba протестировала ИИ-агентов для программирования на 100 реальных кодовых базах, каждая из которых охватывала 233 дня разработки. Результат - полный провал ИИ в программировании.

Выяснилось, что один раз сгенерировать код и пройти тесты — не так уж сложно. А вот поддерживать код в течение 8 месяцев и при этом не ломать всё подряд — именно здесь ИИ с огромным треском проваливает задачу хуже джуна.

SWE-CI — это первый бенчмарк, который измеряет долгосрочную поддержку кода, а не разовые исправления багов. В каждой задаче рассматривается 71 последовательный коммит, то есть реальная эволюция проекта во времени.

Для всех ИИ-сектантов, распространяющих крики «ИИ скоро заменит программистов», это очень плохой знак. Так что для всех, кто уже хоронил профессию программиста и рассказывал про «осталось пару лет», новости так себе. Похоже, между «умеет написать еле работающий прототип» и «умеет быть нормальным инженером и поддерживать кодовую базу проекта» по-прежнему огромная пропасть.

https://x.com/alex_prompter/status/2030331477918126286
2 3661179
>>661149 (OP)
Ты в каждом треде будешь срать этой хуйней, шиз? Кричи еще громче, о том как анальники тольковыиграле.
3 3661194
>>661179
Терпи, ии говно соевое
lol.jpg67 Кб, 1024x677
4 3661213
>>661149 (OP)
ты идёшь на хуй по причине конченный доолбоеб.

ваши стетейки в анус себе запихните и идите бляди решать свои алгоримы. не лезьте в четверную промышленную революцию своими костлявыми пальцами.

только кончь последняя будет отрицать, что ИИ работает.
для этого достаточно оплатить 20 баксов и подключить проксю или впн и лично убедиться.

но у вас тупоголовых блядей и это не получается, ещё айтишниками зовётесь.

>именно здесь ИИ с огромным треском проваливает задачу хуже джуна


это просто ебаный пиздежь. почему у меня ИИ пишет хороший код, а в ублюдских статеечка х - нет?

>А вот поддерживать код в течение 8 месяцев


ты код среднестатистического кожаного мешка не сможешь поддерживать и через месяц, не говоря уже про 8 месяцев или несколько лет. промышленный код, написанный людьми априори дармовый. исключения - всякие библиотеки, где код вылило сообщество. в типовых проектах код ВЕЗДЕ одинаково дерьмовый.
5 3661219
>>661213

>скоро


Хуя какой мощный подрыв ии-сектанта кек. Видимо за живое задело :)

Иди знакомься с научными исследованиями https://arxiv.org/abs/2603.03823

Где ты, а где ученые?

>ты код среднестатистического кожаного мешка не сможешь поддерживать и через месяц


Вот это самопроекции неосилятора. Сколько лично ТЫ написал проектов, поддерживаемых более нескольких месяцев с помощью ИИ?

>это просто ебаный пиздежь. почему у меня ИИ пишет хороший код, а в ублюдских статеечка х - нет?


Потому что ты не пробовал поддерживать его на протяжении несколькиз месяцев или даже года. Это минимальное требование любого продакш-реди кода даже в нищей ИТ-галере под Самарой. Но выходит что даже уровень нищей самарской ИТ-галеры - недосягаемых для 100% нейронок мира кек.
6 3661221
>>661213
LLM-агент порвался, давайте новый.
7 3661224
>>661219

>Сколько лично ТЫ написал проектов, поддерживаемых более нескольких месяцев с помощью ИИ?


Два проекта успешно сопровождаются с помощью Claude Code

>Иди знакомься с научными исследованиями


Зачем мне с ними знакомиться? Что бы что? Что бы потом писать на борде для дитишек визги про ИИ? Где ты, чмо ебучее, и где корпорации, которые нанимают лучших ученых и инженеров для работы в этой сфере?
8 3661239
>>661224

>Зачем мне с ними знакомиться? Что бы что?


Чтобы не быть ИИ-промыткой, коей ты сейчас и являешься
9 3661244
>>661224

>Два проекта успешно сопровождаются с помощью Claude Code


Сопровождаются, а не написаны с нуля ИИ как было написано в ОП-посте.

Расскажи подробнее про свои сопровождаемые проекты. Кодовая база? Количество программистов в команде?
10 3661266
>>661239

>Чтобы не быть ИИ-промыткой, коей ты сейчас и являешься


я ещё раз вопрос задам: где ты, пидоран, и где люди, которые работают в ТОП корпорациях, которые пилят сейчас всю ИИ-движуху?

Ты пидоран мне какие-то статеечки кидаешь, хотя вангую, работаешь на каком-нибудь всратом проекте макакой на впопулярном попсовом стеке для обезьян и что-то тут пытаешься мне обосновывать статеечками, в которых сам нихуя не понимаешь.

>>661244

>Сопровождаются, а не написаны с нуля ИИ как было написано в ОП-посте


Там ничего не написано про "с нуля". Там автор написал только то, что хочет видеть.

> Результат - полный провал ИИ в программировании


О каком провале вы пидоры тут вещаете, если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу?
11 3661270
>>661266

>которые работают в ТОП корпорациях


Что-то уровня эпохи доткомов кек. В итоге 90% этих манякорпораций успешно пукнули хрюкнули

>О каком провале вы пидоры тут вещаете, если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу?


Верю! Верю, как же тут рандомнмоу пидоранчику с дипломом мухгу из под засратова не поверить!
12 3661276
>>661270

>если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу


В то что твоя ИИ-слоп машина успешно пишет тонны говнослопа я как раз верю и верю что пишет она его успешно. Но вот в дальнейшнюю maintability сего поделия черег годик-полтора конечно поверить весьма проблематично. Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.
13 3661277
>>661266

>если у меня прямо сейчас Клод хуярит код, вот в этe минуту? пока я пост пишу


В то что твоя ИИ-слоп машина успешно пишет тонны говнослопа я как раз верю и верю что пишет она его успешно. Но вот в дальнейшнюю maintability сего поделия черег годик-полтора конечно поверить весьма проблематично. Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.
14 3661292
>>661277

>Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.


Я пишу код 15 лет. Ты правда думаешь что я не способен оценить качество ИИ генерации, насколько этот код плох?

>>661270

>Верю! Верю, как же тут рандомнмоу пидоранчику с дипломом мухгу из под засратова не поверить!


Ну как я и говорил - ты даже не пробовал ИИ, а усираешься тут, клоун ты ебаный, долбоеб потешный.
15 3661308
>>661292
У тебя случайно не пхп проект?
16 3661312
>>661292

>Я пишу код 15 лет


Ты тот самый пхпшник?
17 3661362

>чистоты и качества код


Похуй. Разбираться в нем все равно будут только нейросети
18 3661462
>>661362
страшн за такое говнобудущее
19 3706911
>>661276

> Пиздец, жалко адекватных мэнтейнеров, кому через год разгребать эти авгиевы конюшни.



Не дадут им разбирать. На раззявленный по результатам роток CEO менеджерье поменьше будет брать проектных петушков "чиста маленькую праблему паправить и все, тут уже норм праграмист написал прадукт". Слоп же не отличить визуально с первого взгляда, без достаточно трудоемкого разбора.

Это по тем проблемам, которые вообще найдут. 95% слопа уйдет естественно в корзину вместе с ИИ-ферст организациями, но на их место встанут новые. Деньги кабанью халявные дадут на это - государства, спонсороинвесторы, копрономика на это два столетия точилась.
20 3707335
>>661149 (OP)

> чистоты и качества


Нинужно. Если клод не справляется — пусть переписывает заново.
21 3707630
>>661149 (OP)
Это то о чем умные люди говорили с момента появления агентов. Программирование не сводится к набиванию тысяч строк кода, программисты как были нужны так и останутся.
22 3707633
>>661213
ИИ прекрасно работает же, как замена IDE. Только не заменяет человека который этим рулит и решает что надо сделать.
23 3709945
>>707335
Платить за это будешь ты
24 3719699
>>661219
Вобще сученые в говне моченые, они (многие) в проганье особо и не могут. Пишут индусскую лапше хуйню в основном. Задрочили олимпиадные задачки и учат этому мимокроков. Чувак сам придумал тесты, сам прогнал бесплатного агента который у него запустился на плате что была под рукой. Своял статью и все.
25 3719705
>>661149 (OP)
Ну и отлично, теперь у Anthropic и OpenAI появилась новая метрика качества, которую будут использовать для обучения следующих моделей.
Вот увидишь, через полгода они прекрасно и такие задачи будут решать. В 2023-ем тоже многие ржали и говорили, что нейронка ничего не умеет. А в итоге нейронки сэволюционировали и теперь ржут нал нами. Каждый раз, когда ты указываешь на проблемы нейронок, ты буквально вбрасываешь в медиапространство готовые инструкции по их улучшению.
26 3720060
>>719705
в статье рассматриваются нейронки двухлетней давности, причем далеко не топовые. всякие квены, дипсики и прочий китайский хлам. среди топов клод и он нормальные результаты показал. и это, повторю, на данных двухлетеней давности. (стстья вышла в марте. там наблюдение 220 + 70 дней + обработка, плюс написание статьи, плюс апрув - это еще минимум полгода)
27 3720062
>>719699

>Вобще сученые в говне моченые, они (многие) в проганье особо и не могут. Пишут индусскую лапше хуйню в основном.


в общем да, 99,99% статей в рубрике ML - это литералли британские ученые в китайской обертке. генерируют слоп чтобы KPI в алибабе выгрести и премию получить.
Обновить тред
« /pr/В начало тредаВеб-версияНастройки
/a//b//mu//s//vg/Все доски

Скачать тред только с превьюс превью и прикрепленными файлами

Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах.Подробнее