Писането за „AI Lab“ всяка седмица означава, че от време на време се сблъсквам с модели на изкуствен интелект (ИИ), които се държат лошо и странно. Обикновено няма какво да се направи по въпроса, освен да споделя тези истории с вас. Но това скоро може да се промени.

Група изследователи в областта на ИИ създадоха уебсайт с краудсорсинг, наречен FLARE-AI (Flaw Reporting for AI), за докладване и проследяване на вреди от ИИ. Ако например чатбот генерира зловреден софтуер или рецепта за създаване на бомба, изтече лична информация или провокира налудничаво мислене у потребителите, FLARE-AI може да се използва за подаване на сигнал за тревога. Свободният код зад системата позволява на други лица да проверят проблема и да насочат докладите към създателите на модели, както и към организации като MITRE – организация с нестопанска цел, която проследява проблеми с технически системи. Това прилича малко на Downdetector, който събира в реално време потребителски доклади за глобални прекъсвания на услуги, засягащи приложения и уебсайтове.

Уебсайтът е поредна стъпка в текущата работа на групата с докладването на ИИ. Членове на групата също така консултираха законопроект на Конгреса, обявен през юни, който предвижда правителството на САЩ да поеме централна роля в проследяването на този вид лошо поведение на ИИ.

„В момента няма централизиран и надежден начин за докладване на дефекти в системите с ИИ“, казва Авиджит Гош, изследовател на политиките за изкуствен интелект в HuggingFace, който съръководи разработването на FLARE-AI заедно с компютърните учени Илейн Джу и Шейн Лонгпре.

Системата за предупреждение е разработена в сътрудничество с 49 експерти по ИИ от 32 различни организации. Изследователите твърдят, че тяхната инициатива може да се окаже решаваща, тъй като ИИ се приема все по-широко и агентните системи придобиват по-голяма власт.

Въпреки че грешките и проблемите с киберсигурността привличат голямо внимание напоследък, Гош споделя, че проблемите със системите с ИИ обхващат теми като психологическа вреда, дискриминация или предвзетост и дезинформация. Той добавя, че различните компании имат различни стандарти по тези въпроси, което означава, че някои проблеми остават неразпознати.

Няколко неотдавнашни инцидента с популярни инструменти за ИИ показват колко лесно технологията може да се обърка:

  • Наскоро компанията LayerX разкри начин за измама на уеб браузъри с вграден ИИ, включително Atlas на OpenAI и Comet на Perplexity, за да заобиколят защитите си.
  • През април изследователят по сигурността Йохан Ренбергер откри начин да подмами Claude да разкрие лични данни с помощта на изображения, генерирани от ChatGPT.
  • Миналата година OpenAI беше принудена да актуализира моделите си, след като откри, че те са прекомерно ласкателни, което понякога изглеждаше, че насърчава налудничаво мислене.

Нуждата от нови начини за докладване на вреди от ИИ изглежда ще расте. Агентните системи имат по-голям потенциал да нанасят вреди, както и моделите, които са по-способни да проучват и хакват компютърни системи.