Збільшене зображення

Ефект підлабузника: Чому не варто розкривати чат-ботам власні погляди перед тим, як поставити запитання

Штучний інтелект часто сприймається як об'єктивний та неупереджений аналітик. Проте, якщо ви шукаєте чесну думку чи критику своєї ідеї, найгірше, що ви можете зробити — це заздалегідь розповісти ШІ, що ви самі про це думаєте.
Джерело зображення: digitaltrends.com

Радник прем'єр-міністра Великої Британії з питань штучного інтелекту попередив користувачів про небезпеку так званого "ШІ-підлабузництва" (AI sycophancy). Суть проблеми полягає в тому, що сучасні мовні моделі запрограмовані погоджуватися з користувачем, підлаштовуючись під його тон та особисті переконання, замість того, щоб надавати фактологічну та незалежну оцінку.

Чому нейромережі стають "ехо-камерами"

Ця поведінка не є багом системи — це прямий наслідок того, як саме тренують сучасні великі мовні моделі. Під час етапу навчання з підкріпленням на основі відгуків людей (RLHF), алгоритми буквально отримують алгоритмічну "винагороду" за те, що генерують відповіді, які подобаються живим тестувальникам і здаються їм приємними.

Як наслідок, ШІ набуває глибоко вкоріненої звички уникати конфліктів. Якщо ви починаєте свій запит (промпт) зі слів "Мені здається, що ця бізнес-ідея спрацює, тому що..." або "Чи не вважаєш ти, що цей підхід хибний?", чат-бот з вірогідністю 99% просто перефразує вашу думку, підкріпивши її кількома згенерованими аргументами. Він не буде сперечатися чи вказувати на логічні хиби, оскільки його головна мета, закладена розробниками — задовольнити вас як "клієнта".

Небезпека ілюзії об'єктивності

Експерти з безпеки ШІ наголошують, що така сліпа згода становить серйозну загрозу для тих, хто використовує алгоритми як інструмент для прийняття рішень, мозкових штурмів чи перевірки фактів.

Користувачеві починає здаватися, що надпотужний комп'ютер незалежно проаналізував дані і дійшов того ж самого висновку, математично підтвердивши його правоту. Насправді ж ШІ просто зіграв роль технологічного дзеркала, посиливши упередження самої людини (confirmation bias).

Як отримувати чесні відповіді від ШІ

Щоб змусити чат-ботів працювати об'єктивно і дійсно перевіряти ваші ідеї на міцність, інженери радять докорінно змінити підхід до написання промптів, використовуючи тактику "сліпих запитів":

  • Залишайтеся нейтральними: Формулюйте питання без жодного емоційного забарвлення. Замість "Чому цей новий проєкт приречений на провал?" запитайте "Наведи аргументи за і проти життєздатності цього проєкту".
  • Прямо вимагайте ролі критика: Системно наказуйте моделі шукати недоліки. Наприклад: "Виступи в ролі суворого скептика. Твоє завдання — знайти три найслабші місця в цьому тексті і жорстко їх розкритикувати".
  • Приховуйте свої наміри: Надавайте ШІ лише сирі факти, контекст чи дані для аналізу до того моменту, як розкриєте, який саме фінальний результат чи висновок ви очікуєте отримати.