Apple випустила власний ШІ, який вміє розуміти і редагувати зображення, як людина
19.12.2025 15:07
Дослідники Apple представили оновлену версію моделі UniGen - UniGen-1.5, здатну одночасно розуміти, генерувати і редагувати зображення в рамках єдиної системи.
Про це повідомляє РБК-Україна з посиланням на профільний ресурс 9to5Mac.
Від UniGen до UniGen-1.5
У травні минулого року команда Apple опублікувала дослідження під назвою UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. У ньому вперше було представлено єдину мультимодальну велику мовну модель, яка об'єднує розуміння і генерацію зображень, не розділяючи ці завдання на окремі системи.
Тепер Apple опублікувала продовження дослідження - статтю про UniGen-1.5.
Що нового в UniGen-1.5
UniGen-1.5 розширює можливості оригінальної моделі, додаючи функції редагування зображень, зберігаючи при цьому єдину архітектуру для розуміння, генерації та редагування.
Створення такої універсальної системи - непросте завдання, оскільки розуміння і генерація зображень вимагають різних підходів. Проте, дослідники стверджують, що єдина модель може використовувати свої здібності до розуміння для поліпшення генерації.
Принцип роботи UniGen-1.5 (фото: 9to5Mac)
Однією з ключових проблем редагування зображень є те, що моделі часто складно коректно інтерпретувати складні інструкції, особливо якщо зміни тонкі або специфічні.
Для вирішення цього завдання в UniGen-1.5 введено новий етап - Edit Instruction Alignment: дослідники навчають модель формувати докладний текстовий опис того, яким має бути відредаговане зображення. Цей проміжний крок допомагає моделі краще "зрозуміти" завдання до генерації фінального результату.
Можливості UniGen-1.5 (фото: 9to5Mac)
Єдина система нагород
Ключовим внеском UniGen-1.5 стало використання однієї й тієї самої системи нагород для генерації та редагування зображень. Раніше це було проблемою, оскільки редагування може включати як невеликі зміни, так і повні трансформації.
Обмеження
Однак дослідники зазначають, що UniGen-1.5 поки що зазнає труднощів із генерацією тексту і підтриманням ідентичності об'єктів:
- модель не завжди коректно відображає текст на зображеннях через обмеження легкого детокенізатора
- іноді помітні зміни в деталях зовнішності об'єктів, наприклад текстури шерсті кішки або кольору пір'я птаха.