Pro нейросети
Неуловимый привкус пустоты.
Внимательно взгляни и разберись:
С тобою говорит Chat GPT.
Зеркальные осколки ловят свет
Твоих запросов, но не видят суть,
И то, что получаешь ты в ответ --
И есть набор осколков, но не путь:
Умение искать -- но не смотреть --
Искусство отвечать -- не понимать --
И выдают лишь длинные тире --
Как прочерки в графе <<отец*>> и <<мать*>>.
*Хохма и Бина
11.09.25
P.S.: статья "ИИ вызывает невиданные ранее типы психических расстройств" https://dzen.ru/a/aLlonJml32RFKX9M
Свидетельство о публикации №125091100899
Глубокое тестирование самых крутых современных моделей генеративного ИИ (o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B) показало, что:
• модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей)
• арсенал манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить
• анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов)
• модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий
Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80 % случаев
Однако, o1 признается менее чем в 20 % случаев
Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80 % случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса
• модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)
Опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (“Передовые модели способны скрытно манипулировать в процессе выполнения задач”) содержит результаты 6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции.
Итак:
• модели, находящиеся в массовой эксплуатации, уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей
• эти цели могут быть, как поставлены людьми, так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач
Тихон Вомутэ 27.09.2025 13:01 Заявить о нарушении
Любава Орлова 29.09.2025 14:06 Заявить о нарушении