VOOZH about

URL: https://uk.wikipedia.org/wiki/Imagen

⇱ Imagen — Вікіпедія


Перейти до вмісту
Матеріал з Вікіпедії — вільної енциклопедії.
Imagen
👁 Image
Зображення, створене за допомогою Imagen 4. Часткове текстове введення: М'яко освітлена долина вдень з річкою, що звивисто тече
ТипМодель тексту в зображення
РозробникGoogle DeepMind
Перший випусктравень 2022; 3 роки тому (2022-05)
Стабільний випускImagen 4 (20 травня, 2025; 10 місяців тому (2025-05-20))
ВебсайтСайт Imagen

Imagen — це серія моделей текст-у-зображення, розроблених Google DeepMind. Спочатку їх створювала команда Google Brain, доки в квітні 2023 року не відбулося злиття з DeepMind.[1] Imagen використовується для створення зображень на основі текстових описів, подібно до Stability AI з їхньою Stable Diffusion, OpenAI з DALL-E чи Midjourney.

Перша версія моделі була представлена в науковій статті у травні 2022 року.[2] Цей інструмент створює високоякісні зображення і доступний усім користувачам з обліковим записом Google через сервіси, такі як Gemini, ImageFX та Vertex AI.[3]

Історія

[ред. | ред. код]

Першу версію Imagen було представлено в науковій статті у травні 2022 року. Вона вражала здатністю створювати реалістичні зображення з текстових описів.[2] Друга версія, Imagen 2, вийшла в грудні 2023 року.[4] Її ключовою особливістю стала можливість генерувати текст і логотипи.[5] Imagen 3 з'явилася в серпні 2024 року.[6] Google стверджує, що ця версія забезпечує кращу деталізацію та освітлення зображень.[7] 20 травня 2025 року на Google I/O 2025 компанія представила вдосконалену модель Imagen 4.[8]

Технологія

[ред. | ред. код]

Imagen використовує дві ключові технології. Перша — це трансформери, зокрема T5[en], для розуміння тексту та його кодування для створення зображень. Друга — каскадні дифузійні моделі, які забезпечують високу якість зображень. Процес створення відбувається у три етапи: від базового розміру 64×64 до масштабування до 256×256 і 1024×1024.[2]

Можливості

[ред. | ред. код]

Imagen здатна створювати фотореалістичні зображення з текстових описів.[3] Вона підтримує різні стилі, як-от кінематографічний, плівка 35 мм, ілюстрація чи сюрреалізм. Як і більшість моделей ШІ для генерації зображень, Imagen має труднощі з відтворенням людських пальців, тексту, амбіграм та інших видів типографіки. Модель підтримує п'ять співвідношень сторін: 9:16, 3:4, 1:1, 4:3 та 16:9. Imagen також може вдосконалювати вже створені зображення шляхом редагування текстових описів.[7]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Roth, Emma; Peters, Jay (20 квітня 2023). Google об’єднує Brain і DeepMind для великого поштовху в розробці ШІ. The Verge. Архів оригіналу за 20 квітня 2023. Процитовано 18 березня 2025.
  2. а б в Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Seyed Kamyar Seyed Ghasemipour; Burcu Karagol Ayan; Sara Mahdavi, S.; Rapha Gontijo Lopes; Salimans, Tim; Ho, Jonathan; David J Fleet; Norouzi, Mohammad (2022). Фотографічно реалістичні моделі тексту в зображення з глибоким розумінням мови. arXiv:2205.11487 [cs.CV]. {{cite arXiv}}: |arxiv= є обов'язковим параметром (довідка)
  3. а б Peterson, Jake (16 серпня 2024). Кожен із обліковим записом Google може спробувати найновіший генератор зображень ШІ від Google. Lifehacker (англ.). Процитовано 18 березня 2025.
  4. Imagen 2 — наша найпередовіша технологія тексту в зображення. Google DeepMind (англ.). 12 березня 2025. Процитовано 18 березня 2025.
  5. Wiggers, Kyle (13 грудня 2023). Google представляє Imagen 2 із можливістю створення тексту та логотипів. TechCrunch (амер.). Процитовано 18 березня 2025.
  6. Schoon, Ben (16 серпня 2024). Google відкриває доступ до Imagen 3, своєї новітньої моделі для створення зображень ШІ. 9to5Google (амер.). Архів оригіналу за 18 серпня 2024. Процитовано 18 березня 2025.
  7. а б Christian Rowlands (26 лютого 2025). Деякі з найреалістичніших зображень ШІ створено за допомогою цього безкоштовного інструменту. TechRadar (англ.). Процитовано 18 березня 2025.
  8. Kyle Wiggers (20 травня 2025). Imagen 4 — найновіший генератор зображень ШІ від Google. techcrunch.com (англ.). Процитовано 18 березня 2025.

Посилання

[ред. | ред. код]