ChatGPT получил новый генератор изображений с расширенными функциями

Компания OpenAI представила новую модель генерации изображений gpt-image-2, интегрированную в ChatGPT и доступную через API для разработчиков.

Решение стало одной из первых визуальных моделей компании с поддержкой режима рассуждения, что расширяет сценарии её применения.

Расширенные возможности обработки запросов

Согласно заявленным характеристикам, при использовании режима рассуждения модель способна:

-анализировать контекст запроса;

-учитывать дополнительные смысловые параметры;

-формировать несколько вариантов изображений;

-проводить внутреннюю проверку результатов генерации.

Данный подход направлен на повышение точности и вариативности визуального контента.

Работа с текстом и языками

Отдельное внимание уделено улучшенной поддержке нелатинских письменностей.

Модель корректно воспроизводит текст на различных языках, включая:

-японский;

-корейский;

-китайский;

-хинди;

-бенгали.

Качество и детализация изображений

gpt-image-2 демонстрирует более высокий уровень реалистичности и детализации изображений.

Отмечаются следующие улучшения:

-более точная передача художественных стилей;

-проработка мелких деталей;

-естественные визуальные несовершенства;

-корректное воспроизведение сложных сцен, включая кинематографические композиции и пиксельную графику.

Ограничения

Несмотря на расширенные возможности, модель может испытывать трудности при генерации:

-пошаговых инструкций (например, оригами);

-головоломок;

-сложных геометрических структур.

Доступность

Модель gpt-image-2 (Images 2) уже доступна пользователям ChatGPT и Codex.

Функции режима рассуждения доступны только подписчикам платных тарифов.

Кроме того, модель интегрирована в API для разработчиков.

ORIENT