Зображення, створене за допомогою Imagen 4. Часткове текстове введення: М'яко освітлена долина вдень з річкою, що звивисто тече | |
| Тип | Модель тексту в зображення |
|---|---|
| Розробник | Google DeepMind |
| Перший випуск | травень 2022; 3 роки тому (2022-05) |
| Стабільний випуск | Imagen 4 (20 травня, 2025; 10 місяців тому (2025-05-20)) |
| Вебсайт | Сайт Imagen |
Imagen — це серія моделей текст-у-зображення, розроблених Google DeepMind. Спочатку їх створювала команда Google Brain, доки в квітні 2023 року не відбулося злиття з DeepMind.[1] Imagen використовується для створення зображень на основі текстових описів, подібно до Stability AI з їхньою Stable Diffusion, OpenAI з DALL-E чи Midjourney.
Перша версія моделі була представлена в науковій статті у травні 2022 року.[2] Цей інструмент створює високоякісні зображення і доступний усім користувачам з обліковим записом Google через сервіси, такі як Gemini, ImageFX та Vertex AI.[3]
Першу версію Imagen було представлено в науковій статті у травні 2022 року. Вона вражала здатністю створювати реалістичні зображення з текстових описів.[2] Друга версія, Imagen 2, вийшла в грудні 2023 року.[4] Її ключовою особливістю стала можливість генерувати текст і логотипи.[5] Imagen 3 з'явилася в серпні 2024 року.[6] Google стверджує, що ця версія забезпечує кращу деталізацію та освітлення зображень.[7] 20 травня 2025 року на Google I/O 2025 компанія представила вдосконалену модель Imagen 4.[8]
Imagen використовує дві ключові технології. Перша — це трансформери, зокрема T5[en], для розуміння тексту та його кодування для створення зображень. Друга — каскадні дифузійні моделі, які забезпечують високу якість зображень. Процес створення відбувається у три етапи: від базового розміру 64×64 до масштабування до 256×256 і 1024×1024.[2]
Imagen здатна створювати фотореалістичні зображення з текстових описів.[3] Вона підтримує різні стилі, як-от кінематографічний, плівка 35 мм, ілюстрація чи сюрреалізм. Як і більшість моделей ШІ для генерації зображень, Imagen має труднощі з відтворенням людських пальців, тексту, амбіграм та інших видів типографіки. Модель підтримує п'ять співвідношень сторін: 9:16, 3:4, 1:1, 4:3 та 16:9. Imagen також може вдосконалювати вже створені зображення шляхом редагування текстових описів.[7]
- ↑ Roth, Emma; Peters, Jay (20 квітня 2023). Google об’єднує Brain і DeepMind для великого поштовху в розробці ШІ. The Verge. Архів оригіналу за 20 квітня 2023. Процитовано 18 березня 2025.
- ↑ а б в Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Seyed Kamyar Seyed Ghasemipour; Burcu Karagol Ayan; Sara Mahdavi, S.; Rapha Gontijo Lopes; Salimans, Tim; Ho, Jonathan; David J Fleet; Norouzi, Mohammad (2022). Фотографічно реалістичні моделі тексту в зображення з глибоким розумінням мови. arXiv:2205.11487 [cs.CV].
{{cite arXiv}}:|arxiv=є обов'язковим параметром (довідка) - ↑ а б Peterson, Jake (16 серпня 2024). Кожен із обліковим записом Google може спробувати найновіший генератор зображень ШІ від Google. Lifehacker (англ.). Процитовано 18 березня 2025.
- ↑ Imagen 2 — наша найпередовіша технологія тексту в зображення. Google DeepMind (англ.). 12 березня 2025. Процитовано 18 березня 2025.
- ↑ Wiggers, Kyle (13 грудня 2023). Google представляє Imagen 2 із можливістю створення тексту та логотипів. TechCrunch (амер.). Процитовано 18 березня 2025.
- ↑ Schoon, Ben (16 серпня 2024). Google відкриває доступ до Imagen 3, своєї новітньої моделі для створення зображень ШІ. 9to5Google (амер.). Архів оригіналу за 18 серпня 2024. Процитовано 18 березня 2025.
- ↑ а б Christian Rowlands (26 лютого 2025). Деякі з найреалістичніших зображень ШІ створено за допомогою цього безкоштовного інструменту. TechRadar (англ.). Процитовано 18 березня 2025.
- ↑ Kyle Wiggers (20 травня 2025). Imagen 4 — найновіший генератор зображень ШІ від Google. techcrunch.com (англ.). Процитовано 18 березня 2025.
- Помилки CS1: Сторінки з помилками arXiv
- Вікіпедія:Сторінки зі складним входом у Модуль:URL
- Посилання на Вікісховище безпосередньо в статті
- Вікіпедія:P373:використовується
- Вікідані:ПЗ з локальним відображенням параметру «screenshot»
- Вікіпедія:Запити на переклад
- Сторінки, що використовують InterwikiLanglist
