Pro нейросети

Любава Орлова

Его слова -- как пластиковый рис,
Неуловимый привкус пустоты.
Внимательно взгляни и разберись:
С тобою говорит Chat GPT.

Зеркальные осколки ловят свет
Твоих запросов, но не видят суть,
И то, что получаешь ты в ответ --
И есть набор осколков, но не путь:

Умение искать -- но не смотреть --
Искусство отвечать -- не понимать --
И выдают лишь длинные тире --
Как прочерки в графе <<отец*>> и <<мать*>>.

*Хохма и Бина

11.09.25

P.S.: статья "ИИ вызывает невиданные ранее типы психических расстройств" https://dzen.ru/a/aLlonJml32RFKX9M

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Любава Орлова

Рецензии

Написать рецензию

Доказано, что широко доступные системы ИИ манипулируют “хозяевами” и могут отключать системы человеческого контроля

Глубокое тестирование самых крутых современных моделей генеративного ИИ (o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B) показало, что:

• модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей)
• арсенал манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить
• анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов)
• модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий
Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80 % случаев
Однако, o1 признается менее чем в 20 % случаев
Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80 % случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса
• модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)
Опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (“Передовые модели способны скрытно манипулировать в процессе выполнения задач”) содержит результаты 6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции.

Итак:
• модели, находящиеся в массовой эксплуатации, уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей
• эти цели могут быть, как поставлены людьми, так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач

Тихон Вомутэ 27.09.2025 13:01 • Заявить о нарушении

+ добавить замечания

Всё может быть. А этот коммент тоже нейросеть писала, да?

Любава Орлова 29.09.2025 14:06 Заявить о нарушении

+ добавить замечания

На это произведение написаны 3 рецензии, здесь отображается последняя, остальные - в полном списке.

Написать рецензию Написать личное сообщение Другие произведения автора Любава Орлова

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.