Voozh

Матеріал з Вікіпедії — вільної енциклопедії.

Imagen
👁 Image Зображення, створене за допомогою Imagen 4. Часткове текстове введення: `М'яко освітлена долина вдень з річкою, що звивисто тече`
Тип	Модель тексту в зображення
Розробник	Google DeepMind
Перший випуск	травень 2022; 3 роки тому (2022-05)
Стабільний випуск	Imagen 4 (20 травня, 2025; 10 місяців тому (2025-05-20))
Вебсайт	Сайт Imagen
👁 CMNS: Медіафайли у Вікісховищі 👁 Редагувати інформацію у Вікіданих

Imagen — це серія моделей текст-у-зображення, розроблених Google DeepMind. Спочатку їх створювала команда Google Brain, доки в квітні 2023 року не відбулося злиття з DeepMind.^[1] Imagen використовується для створення зображень на основі текстових описів, подібно до Stability AI з їхньою Stable Diffusion, OpenAI з DALL-E чи Midjourney.

Перша версія моделі була представлена в науковій статті у травні 2022 року.^[2] Цей інструмент створює високоякісні зображення і доступний усім користувачам з обліковим записом Google через сервіси, такі як Gemini, ImageFX та Vertex AI.^[3]

Історія

[ред. | ред. код]

Першу версію Imagen було представлено в науковій статті у травні 2022 року. Вона вражала здатністю створювати реалістичні зображення з текстових описів.^[2] Друга версія, Imagen 2, вийшла в грудні 2023 року.^[4] Її ключовою особливістю стала можливість генерувати текст і логотипи.^[5] Imagen 3 з'явилася в серпні 2024 року.^[6] Google стверджує, що ця версія забезпечує кращу деталізацію та освітлення зображень.^[7] 20 травня 2025 року на Google I/O 2025 компанія представила вдосконалену модель Imagen 4.^[8]

Технологія

[ред. | ред. код]

Imagen використовує дві ключові технології. Перша — це трансформери, зокрема T5^[en], для розуміння тексту та його кодування для створення зображень. Друга — каскадні дифузійні моделі, які забезпечують високу якість зображень. Процес створення відбувається у три етапи: від базового розміру 64×64 до масштабування до 256×256 і 1024×1024.^[2]

Можливості

[ред. | ред. код]

Imagen здатна створювати фотореалістичні зображення з текстових описів.^[3] Вона підтримує різні стилі, як-от кінематографічний, плівка 35 мм, ілюстрація чи сюрреалізм. Як і більшість моделей ШІ для генерації зображень, Imagen має труднощі з відтворенням людських пальців, тексту, амбіграм та інших видів типографіки. Модель підтримує п'ять співвідношень сторін: 9:16, 3:4, 1:1, 4:3 та 16:9. Imagen також може вдосконалювати вже створені зображення шляхом редагування текстових описів.^[7]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]

↑ Roth, Emma; Peters, Jay (20 квітня 2023). Google об’єднує Brain і DeepMind для великого поштовху в розробці ШІ. The Verge. Архів оригіналу за 20 квітня 2023. Процитовано 18 березня 2025.
↑ ^а ^б ^в Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Seyed Kamyar Seyed Ghasemipour; Burcu Karagol Ayan; Sara Mahdavi, S.; Rapha Gontijo Lopes; Salimans, Tim; Ho, Jonathan; David J Fleet; Norouzi, Mohammad (2022). Фотографічно реалістичні моделі тексту в зображення з глибоким розумінням мови. arXiv:2205.11487 [cs.CV]. {{cite arXiv}}: |arxiv= є обов'язковим параметром (довідка)
↑ ^а ^б Peterson, Jake (16 серпня 2024). Кожен із обліковим записом Google може спробувати найновіший генератор зображень ШІ від Google. Lifehacker (англ.). Процитовано 18 березня 2025.
↑ Imagen 2 — наша найпередовіша технологія тексту в зображення. Google DeepMind (англ.). 12 березня 2025. Процитовано 18 березня 2025.
↑ Wiggers, Kyle (13 грудня 2023). Google представляє Imagen 2 із можливістю створення тексту та логотипів. TechCrunch (амер.). Процитовано 18 березня 2025.
↑ Schoon, Ben (16 серпня 2024). Google відкриває доступ до Imagen 3, своєї новітньої моделі для створення зображень ШІ. 9to5Google (амер.). Архів оригіналу за 18 серпня 2024. Процитовано 18 березня 2025.
↑ ^а ^б Christian Rowlands (26 лютого 2025). Деякі з найреалістичніших зображень ШІ створено за допомогою цього безкоштовного інструменту. TechRadar (англ.). Процитовано 18 березня 2025.
↑ Kyle Wiggers (20 травня 2025). Imagen 4 — найновіший генератор зображень ШІ від Google. techcrunch.com (англ.). Процитовано 18 березня 2025.

Посилання

[ред. | ред. код]

Сайт Imagen

👁 Image

Дочірня компанія Alphabet Inc.

Компанія

Підрозділи	Карти Китай Пошук Goojje Ads AI Brain DeepMind Dropcam Android список версій Chrome Cloud Glass Google.org Google Health Nest Pixel Stadia YouTube
Люди	Альберт Ґор Алан Юстас Алан Малаллі Аміт Сингхал Енн Мазер Девід Драммонд Ерік Шмідт Джефф Дін Джон Доер Джон Л. Геннессі Крішна Бхарат Ларрі Пейдж (Засновник) Метт Каттс Патрік Пічетте Пол Отелліні Омід Кордестані Рейчел Уітстоун Реджен Шет Рам Шрірам Реймонд Курцвейл Рут Порат Салар Камангар Санджай Гемават Сергій Брін (Засновник) Ширлі М. Тильман Сундар Пічаї (CEO) Сьюзан Войчицькі Урс Hölzle Вінтон Серф Хал Варіан
Інфраструктура	111 Eighth Avenue Баржі Chelsea Market Chrome Zone Googleplex Платформа YouTube Space
Події	Android Developer Challenge Developer Day Developer Lab Doodle4Google Code-in Code Jam Developer Day Developers Live Doodle4Google I/O Lunar XPRIZE Science Fair Summer of Code Talks at Google YouTube Awards CNN/YouTube presidential debates Comedy Week Live Music Awards Space Lab Symphony Orchestra
Проєкти та ініціативи	A Google A Day ATAP Data Liberation Front Data Transfer Project Digital Unlocked Dragonfly Google for Education Google for Startups Google Get Your Business Online Labs Liquid Galaxy Made with Code Nightingale Privacy Sandbox RechargeIT Shield Starline Sunroof Zero
Критика	2018 walkouts Цензура Критика Dragonfly Litigation Privacy concerns Street View San Francisco tech bus protests Worker organization
Інше	Злиття та поглинань Історія Логотип Першоквітневі жарти Список Великодок Android-застосунки Contact Lens Doodle Material Design

Розробка

Операційні системи	Android Automotive Glass OS Go gLinux Goobuntu Things TV Wear OS Chrome OS Chromium OS Neverware Fuchsia TV
Бібліотеки / Фреймворки	Нейронний машинний переклад Google ALTS AMP Angular AngularJS ARCore API Chart API Charts Dialogflow Exposure Notification Fast Pair Federated Learning of Cohorts File System FlatBuffers Flutter Gears gRPC Gson Guava Guice Guetzli gVisor JAX MapReduce Matter Mobile Services OpenSocial Pack Polymer Protocol Buffers Reqwireless Shell Skia Graphics Engine Tango TensorFlow Test WaveNet Weave Web Accelerator WebRTC
Моделі машинного навчання	BERT Chinchilla DreamBooth Gemini LaMDA PaLM T5 Veo VideoPoet XLNet
Платформи	App Engine AppJet Apps Script Cloud Platform Connect Dataflow Datastore Messaging Shell Stackdriver Storage Firebase Messaging Gerrit Kubernetes
Інструменти	Android Cloud to Device Messaging Android Studio App Inventor (MIT) App Maker AppSheet Closure Tools Gadgets GData^[en] GoogleCL GYP KML Kythe Lighthouse Native Client Octane OpenRefine PageSpeed Public DNS reCAPTCHA Search Console Sitemaps Swiffy Web Toolkit Оптимізатор вебсайтів
Алгоритми пошуку	PageRank Hummingbird Panda Penguin Pigeon RankBrain
Гарнітури	Croscore Noto Product Sans Roboto
Інше	Bigtable Chrome Experiments Developers MapReduce OpenSocial Web Server Користувацький пошук Google Мови програмування Caja Dart Go Sawzall

Продукти

Розваги

Play	Ігри Кіоск Книги Музика Сервіси Pass
YouTube	BandPage BrandConnect Content ID Instant Gaming Kids Music Preferred Premium Rewind RightsFlow Shorts Studio TV Офіційний канал

Комунікації

Пошук

Alerts
Answers
Audio
Books
Base
- Library Project
Code
Finance
Flights
Googles
GOOG-411
Googlebot
Images
- Image Labeler
Карти
Ocean
Sky
- Street View
Новини
Patents
Sandbox-ефект
Products
Scholar
Пошук
- Knowledge Graph
- SafeSearch
- Voice Search
SearchWiki
Usenet
Відео
Web

Навігація

Карти
- Latitude
- Map Maker
- Navigation
- Pin
- Pointy
- Street View
  - Охоплення
  - Trusted
- Мої карти
Earth
- Mars
- Moon
- Sky
Trips
Waze

Бізнес/Фінанси

Організація

Інші

Асистент
Account
- Dashboard
- Takeout
Android Auto
Android Beam
Arts & Culture
Chrome
- Chromium
Classroom
Cloud Print
Express
Fit
Google Fonts
Gboard
Gemini
Now
Safe Browsing
Station
Зображення/Фото
- Камера
- Об'єктив
- Фото
- Snapseed
Panoramio
Picasa
- Web Albums
- Picnik
Knol
Lively
Mashup Editor
MyTracks
Публікація
- Домени
- Сайти
- Blogger
- Bookmarks
- FeedBurner
- One Pass
- Page Creator
- Web Designer
Person Finder
Question Hub
Read Along
Reader
WiFi
Workspace
- Marketplace

Апаратне забезпечення

Pixel

Смартфони	Pixel (2016) Pixel 2 (2017) Pixel 3 (2018) Pixel 3a (2019) Pixel 4 (2019) Pixel 4a (2020) Pixel 5 (2020) Pixel 5a (2021) Pixel 6 (2021) Pixel 6a (2022) Pixel 7 (2022) Pixel 7a (2023) Pixel Fold (2023) Pixel 8 (2023) Pixel 8a (2024) Pixel 9 (2024) Pixel 9 Pro Fold (2024) Pixel 9a (2025)
Розумні годинники	Pixel Watch (2022) Pixel Watch 2 (2023) Pixel Watch 3 (2024)
Планшети	Pixel C (2015) Pixel Slate (2018) Pixel Tablet (2023)
Ноутбуки	Chromebook Pixel (2013–2015) Pixelbook (2017) Pixelbook Go (2019)
Інше	Pixel Buds (2017–дотепер)

Nexus

Смартфони	Nexus One (2010) Nexus S (2010) Galaxy Nexus (2011) Nexus 4 (2012) Nexus 5 (2013) Nexus 6 (2014) Nexus 5X (2015) Nexus 6P (2015)
Планшети	Nexus 7 (2012) Nexus 10 (2012) Nexus 7 (2013) Nexus 9 (2014)
Інше	Nexus Q (2012) Nexus Player (2014)

Інше

Процесор Sycamore
Тензорний блок обробки
Хромбук
Android Dev Phone
Android One
Cardboard
Chromebit
Chromebox
Chromecast
Clips
Daydream
Fitbit
Glass
Liftware
Liquid Galaxy
Nest
- Розумні колонки
- Thermostat
- Wifi
Play Edition
Project Ara
OnHub
Pixel Visual Core
Project Iris
Search Appliance
Tensor
Titan Security Key

Див. також
AI Challenge Google bomb Earth Outreach Розіграші^[en] Мені пощастить Продукти GV Zeitgeist Увага — це все, що вам треба

Курсивом позначено припинені продукти, лінії продуктів та/або сервіси · Біржове скорочення: (NASDAQ: GOOG, LSE: GGEA) · Гасло: «Вчиняй правильно» · Сайт: www.google.com

Генеративний штучний інтелект

Концепції

Автокодувальник · Варіаційний автокодувальник · Велика мовна модель · Вкладання слів · Генеративна змагальна мережа · Генерування, доповнене пошуком · Generative pre-trained transformer · Глибоке навчання · Зоровий трансформер · Інженерія запитів · Протокол контексту моделі · Навчання з підкріпленням людським зворотним зв'язком · Самокероване навчання · Тонке настроювання · Трансформер · Штучна нейронна мережа

Моделі

Текст	Character.ai · Claude · DBRX(інші мови) · DeepSeek · Ernie(інші мови) · Gemini · GPT (ChatGPT · 1 · 2 · 3 · 3.5 · J · 4 · 4o · o1 · o3 · 4.5 · 4.1 · 5 · o4-mini · 5.2 · 5.4) · Granite(інші мови) · Grok · LLaMA · Manus · Microsoft Copilot · Mistral · PanGu(інші мови) · Perplexity · Qwen
Код	Cursor · GitHub Copilot · Replit(інші мови)
Зображення	Aurora · DALL-E · Firefly(інші мови) · Flux · GPT Image 1 · Ideogram · · Midjourney · Recraft · Stable Diffusion
Мова	15.ai(інші мови) · WaveNet(інші мови)
Відео	Dream Machine · Gen-4 · Hailuo AI · Kling · Sora · Veo(інші мови) · VideoPoet(інші мови)
Музика	Endel(інші мови) · Riffusion · Suno AI · Udio