ШІ навчився "ховати" образи у мемах і картинках: популярні фільтри виявилися безсилими
17.04.2026 14:09
ШІ-генератори навчилися вбудовувати токсичні написи у меми так, що їх практично неможливо відмодерувати ШІ-креатори, серед яких і Stable Diffusion, опинилися у центрі скандалу через небезпечну вразливість. Виявилося, що стандартні системи безпеки "осліпли": вони розпізнають візуальну картинку, проте абсолютно "не розуміють" змісту тексту, який ШІ "вшиває" у зображення.
Про це пише РБК-Україна з посиланням на дослідження CISPA.
Більше цікавого: Без російської озвучки та з Москвою у вогні: що відомо про Metro 2039
Вчені пояснили, чому проблема виявилася значно глибшою, ніж вважалося: сучасні детектори (NSFW) налаштовані на пошук візуальних заборон, однак ігнорують семантику.
Що це означає:
- Текстовий камуфляж - ШІ сприймає букви як набір ліній. Для алгоритму це частина малюнка, а для користувача - пряма образа чи дискримінація.
- Масовий обхід модерації - зловмисники навчилися використовувати прості промпти, які змушують нейромережу створювати токсичні меми. Такі "творіння" легко проходять перевірку соцмереж.
- Відсутність "розуму" - стандартні системи не мають мовного інтелекту, тож будь-який напис на фото для них є безпечним за замовчуванням.
- Миттєве сканування - система автоматично "витягує" всі написи з картинки за допомогою OCR-технологій.
- Аналіз токсичності - спеціальний класифікатор миттєво перевіряє кожне слово на відповідність етичним нормам.
- Інтелектуальна підміна - замість помилки, ШІ підміняє "брудне" слово візуально схожим, але нейтральним за змістом поняттям.
- Ви для нього просто таблиця: популярний ШІ виносить вироки людству без краплі емпатії
- ШІ проти брехні: нова нейромережа викриває діпфейки з точністю 95%