Model dyfuzyjny, model rozpraszający[1] – klasa modeli generatywnych opartych na zmiennych utajonych. Model dyfuzji składa się z trzech głównych komponentów: procesów dyfuzji w przód i wstecz oraz procedury próbkowania[2][3].
Na rok 2024, modele dyfuzyjne są używane głównie w zadaniach rozpoznawania obrazów, w tym generowaniu obrazów, usuwaniu szumu czy tworzeniu superrozdzielczości[4][5].
Generatory obrazów oparte na modelu dyfuzji – takie jak Stable Diffusion czy DALL-E – są najbardziej znanymi projektami opartymi na modelu dyfuzyjnym. Projekty te zazwyczaj łączą modele dyfuzyjne z innymi modelami, takimi jak osadzanie słów czy mechanizm uwagi, aby zapewnić generowanie obrazu z tekstu[6].
Modele dyfuzji znalazły zastosowanie także w zadaniach przetwarzania języka naturalnego[7][8]: generowaniu tekstu[9][10] i podsumowywaniu go[11], generowaniu dźwięku[12] czy uczeniu przez wzmacnianie[13][14].
Przypisy
[edytuj | edytuj kod]- ↑ AurélienA. Géron, Uczenie maszynowe z użyciem Scikit-Learn, Keras i TensorFlow, KrzysztofK. Sawka (tłum.), Gliwice: Helion, 2023, s. 601, ISBN 978-83-8322-423-7 [dostęp 2025-04-22] (pol.).
- ↑ ZiyiZ. Chang, George AlexG.A. Koulieris, Hubert P.H.H.P.H. Shum, On the Design Fundamentals of Diffusion Models: A Survey, arXiv, 19 października 2023, DOI: 10.48550/arXiv.2306.04542 [dostęp 2025-04-22].
- ↑ AayushA. Mittal, Zrozumienie modeli dyfuzji: Głębokie zanurzenie w generatywnej sztucznej inteligencji [online], Unite.AI, 30 sierpnia 2024 [dostęp 2025-04-22] (pol.).
- ↑ YangY. Song i inni, Score-Based Generative Modeling through Stochastic Differential Equations, arXiv, 10 lutego 2021, DOI: 10.48550/arXiv.2011.13456 [dostęp 2025-04-22].
- ↑ ShuyangS. Gu i inni, Vector Quantized Diffusion Model for Text-to-Image Synthesis, arXiv, 3 marca 2022, DOI: 10.48550/arXiv.2111.14822 [dostęp 2025-04-22].
- ↑ openai/glide-text2im, OpenAI, 21 kwietnia 2025 [dostęp 2025-04-22].
- ↑ ShenS. Nie i inni, Scaling up Masked Diffusion Models on Text, arXiv, 28 lutego 2025, DOI: 10.48550/arXiv.2410.18514 [dostęp 2025-04-22].
- ↑ YifanY. Li, KunK. Zhou, Wayne XinW.X. Zhao, Ji-RongJ.R. Wen, Diffusion Models for Non-autoregressive Text Generation: A Survey, arXiv, 13 maja 2023, DOI: 10.48550/arXiv.2303.06574 [dostęp 2025-04-22].
- ↑ XiaochuangX. Han, SachinS. Kumar, YuliaY. Tsvetkov, SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control, arXiv, 26 czerwca 2023, DOI: 10.48550/arXiv.2210.17432 [dostęp 2025-04-22].
- ↑ WeijieW. Xu, WenxiangW. Hu, FanyouF. Wu, SrinivasanS. Sengamedu, DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM, arXiv, 23 grudnia 2023, DOI: 10.48550/arXiv.2310.15296 [dostęp 2025-04-22].
- ↑ HaopengH. Zhang, XiaoX. Liu, JiaweiJ. Zhang, DiffuSum: Generation Enhanced Extractive Summarization with Diffusion, arXiv, 11 maja 2023, DOI: 10.48550/arXiv.2305.01735 [dostęp 2025-04-22].
- ↑ DongchaoD. Yang i inni, Diffsound: Discrete Diffusion Model for Text-to-sound Generation, arXiv, 28 kwietnia 2023, DOI: 10.48550/arXiv.2207.09983 [dostęp 2025-04-22].
- ↑ MichaelM. Janner, YilunY. Du, Joshua B.J.B. Tenenbaum, SergeyS. Levine, Planning with Diffusion for Flexible Behavior Synthesis, arXiv, 21 grudnia 2022, DOI: 10.48550/arXiv.2205.09991 [dostęp 2025-04-22].
- ↑ ChengCh. Chi i inni, Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, arXiv, 14 marca 2024, DOI: 10.48550/arXiv.2303.04137 [dostęp 2025-04-22].
| Paradygmaty | |
|---|---|
| Zagadnienia | |
| Uczenie nadzorowane (Klasyfikacja, Regresja) | |
| Klasteryzacja | |
| Redukcja wymiaru | |
| Sieć neuronowa |
