Компания OpenAI представила новую модель генерации изображений gpt-image-2, интегрированную в ChatGPT и доступную через API для разработчиков.
Решение стало одной из первых визуальных моделей компании с поддержкой режима рассуждения, что расширяет сценарии её применения.
Расширенные возможности обработки запросов
Согласно заявленным характеристикам, при использовании режима рассуждения модель способна:
-анализировать контекст запроса;
-учитывать дополнительные смысловые параметры;
-формировать несколько вариантов изображений;
-проводить внутреннюю проверку результатов генерации.
Данный подход направлен на повышение точности и вариативности визуального контента.
Работа с текстом и языками
Отдельное внимание уделено улучшенной поддержке нелатинских письменностей.
Модель корректно воспроизводит текст на различных языках, включая:
-японский;
-корейский;
-китайский;
-хинди;
-бенгали.
Качество и детализация изображений
gpt-image-2 демонстрирует более высокий уровень реалистичности и детализации изображений.
Отмечаются следующие улучшения:
-более точная передача художественных стилей;
-проработка мелких деталей;
-естественные визуальные несовершенства;
-корректное воспроизведение сложных сцен, включая кинематографические композиции и пиксельную графику.
Ограничения
Несмотря на расширенные возможности, модель может испытывать трудности при генерации:
-пошаговых инструкций (например, оригами);
-головоломок;
-сложных геометрических структур.
Доступность
Модель gpt-image-2 (Images 2) уже доступна пользователям ChatGPT и Codex.
Функции режима рассуждения доступны только подписчикам платных тарифов.
Кроме того, модель интегрирована в API для разработчиков.
ORIENT
