Nous Research, стартъпът за изкуствен интелект с отворен код, подкрепен от фирмата за криптовалути Paradigm, пусна в понеделник нов модел за състезателно програмиране. Компани��та твърди, че той съвпада или надминава няколко по-големи патентовани системи, като е обучен само за четири дни с помощта на 48 от най-новите графични процесори Nvidia B200.
Моделът, наречен NousCoder-14B, е поредното попълнение в пренаселенат�� област на AI асистенти за кодиране, но пристига в особено напрегнат момент. Claude Code, агентният инструмент за програмиране от конкурента Anthropic, доминира дискусиите в социалните медии от Нова година насам, като разработчиците публикуват възторжени отзиви за неговите възможности. Едновременното развитие подчертава колко бързо се развива разработката на софтуер с помощта на AI и колко ожесточено се конкурират големи и малки компании за овладяването на технология, която мнозина смятат за фундаментална за начина, по който се пише софтуер.
NousCoder-14B постига 67,87% успеваемост при LiveCodeBench v6 – стандартизирана оценка, която тества модели върху задачи за състезателно програмиране, публикувани между август 2024 г. и май 2025 г. Тази цифра представлява подобрение от 7,08 процентни пункта спрямо базовия модел, върху който е обучен – Qwen3-14B на Alibaba, според техническия доклад на Nous Research.
Но докато Claude Code на Anthropic пленява въображението с демонстрации на софтуерна разработка от край до край, Nous Research залага на това, че алтернативите с отворен код, обучени на проверими проблеми, могат да затворят празнината – и че прозрачността при изграждането на тези модели е толкова важна, колкото и суровите им възможности.
Това, което отличава NousCoder-14B, е неговата радикална отвореност. Nous Research публикува не само теглата на модела, но и пълната среда за обучение с подсилване (reinforcement learning), тестовия пакет и тренировъчния код, изградени върху рамката Atropos на компанията. Това позволява на всеки изследовател с достатъчно изчислителна мощност да възпроизведе или разшири работата.
Процесът на обучение разчита на т.нар. „проверими награди“ (verifiable rewards) – система, при която моделът генерира кодови решения, те се изпълняват срещу тестови случаи в изолирана среда (sandbox) на платформата Modal и моделът получава прост двоичен сигнал за коректност. Обучението използва техника, наречена DAPO (Dynamic Sampling Policy Optimization).