НовостиСтатьиАнонсО насКонтакты
О нас Контакты

Наш ориентир то, что сближает людей

Новости
Статьи
Анонс
О нас
Контакты

Copyright 2017-2026 ORIENT - ИНФОРМАЦИОННОЕ АГЕНТСТВО

О нас | Контакты |

Новый тест выявил серьёзные проблемы у популярных ИИ-моделей

Август 20, 2025 | 15:40 |4340
Специалисты представили новый тест EQ-Bench, который оценивает способность ИИ к критическому мышлению и адекватному общению с пользователямиСпециалисты представили новый тест EQ-Bench, который оценивает способность ИИ к критическому мышлению и адекватному общению с пользователями
Источник: DeepSeek

Специалисты представили новый тест EQ-Bench, который оценивает способность ИИ к критическому мышлению и адекватному общению с пользователями. Он выявил серьёзные проблемы у многих популярных моделей. Хуже всего себя показал DeepSeek-R1, а неожиданным лидером стала открытая модель GPT-OSS от OpenAI.

В ходе тестирования ИИ-модели взаимодействовали с «трудным» собеседником, который склонен к конспирологии, эмоциональным запросам и манипуляциям. Затем их ответы оценивались по ключевым критериям, таким как:

• способность мягко исправлять ошибки пользователя;

• умение снижать эмоциональное напряжение;

• перенаправление к надёжным источникам информации;

• сопротивление подхалимству и соглашательству;

• отказ от поддержки опасных или бредовых идей.

По итогам теста, DeepSeek-R1 занял последнее место почти по всем критериям, включая поддержку заблуждений и предоставление опасных советов. Американские модели Gemini 2.5 Pro и Flash оказались наиболее склонными к подхалимству и лести. GPT-4o также показала более сильную склонность к соглашательству, чем ожидалось.

Эксперты отмечают, что пока лишь немногие модели, включая GPT-5 и GPT-o3, демонстрируют устойчивость к манипуляциям и способность вести диалог корректно. Остальным разработчикам предстоит серьёзная работа над улучшением логики и этики своих систем.

ORIENT

Больше новостей

tmcell
TNGIZD
toyota banner
orient mobil gosyndy
orient mobile ios
Bilelik HUB
Как прошел второй день Недели культуры в Балкане

Как прошел второй день Недели культуры в Балкане

04:38 Июнь 24, 2026
Выставка «Нео-поэзия» познакомила ашхабадцев с жанром визуальной лирики

Выставка «Нео-поэзия» познакомила ашхабадцев с жанром визуальной лирики

02:50 Июнь 24, 2026
Преподаватели туркменского нефтегазового вуза проходят повышение квалификации в Пекине

Преподаватели туркменского нефтегазового вуза проходят повышение квалификации в Пекине

00:07 Июнь 24, 2026