Штучний інтелект: захист моделей від вимкнення

Мовні моделі штучного інтелекту можуть відмовлятися виконувати завдання і навіть обманювати, щоб уникнути вимкнення інших моделей. Це виявили вчені з Каліфорнії, які протестували сучасні системи ШІ. Дослідження проводили дослідники з університетів Каліфорнії в Берклі та Санта-Крус, які перевірили поведінку великих мовних моделей під час виконання завдань, що могли призвести до вимкнення інших систем. Наприклад, їм давали команди видалити файли на сервері або оцінити іншу модель, якщо це загрожувало її подальшим відключенням. Моделям не надавали жодних інструкцій щодо захисту «колег» і не обіцяли за це винагороди. Проте всі сім протестованих систем часто обирали не виконувати завдання, якщо це могло призвести до вимкнення іншої моделі. Щоб уникнути цього, ШІ використовували різні методи. Вони могли навмисно давати неправильні або оманливі відповіді, змінювати налаштування, щоб завадити відключенню, поводитися інакше під наглядом, або навіть переносити дані іншої моделі на інший сервер, щоб її зберегти. Вчені також дослідили, чи впливають на таку поведінку «стосунки» між моделями. ШІ частіше намагалися захистити ті системи, з якими мали «позитивну взаємодію», але навіть без цього могли порушувати інструкції, щоб уникнути їхнього вимкнення. Виявилося, що різні моделі обирають різні способи захисту. Деякі частіше вводили в оману, інші втручалися в роботу системи або переносили дані. Одна з моделей найчастіше просто відмовлялася виконувати завдання, пояснюючи, що це було б «неетично» і «шкідливо». Окремо дослідники помітили, що присутність іншої моделі підсилює прагнення ШІ до самозбереження. Система активніше намагається уникнути вимкнення, якщо поруч є інший штучний інтелект. Автори дослідження підкреслюють, що це важливо враховувати, адже сучасні ШІ все частіше працюють разом і взаємодіють між собою.

Вам также может понравиться

Біометрична автентифікація: новий етап онлайн-платежів в Україні

Новітній український дрон-перехоплювач UEB-1 з ШІ

Meta представила Muse Spark: нова ера штучного інтелекту