La generazione di immagini AI è passata dal produrre volti sfocati e distorti alla creazione di scene fotorealistici e illustrazioni dettagliate in meno di un minuto. Ma come fa un computer a "immaginare" un'immagine da una descrizione testuale? Questa guida spiega la tecnologia di base dietro gli strumenti come Midjourney, DALL-E e Stable Diffusion — senza la matematica, ma con sufficiente profondità per capire cosa si sta pagando veramente.
Da rumore a immagine: come funzionano i modelli di diffusione
La maggior parte dei generatori di immagini moderni utilizza una tecnica chiamata diffusione. L'idea è controintuitiva: il modello impara a rimuovere il rumore da un'immagine, non a disegnarla da zero.
Durante l'addestramento, il sistema prende milioni di immagini reali e aggiunge gradualmente rumore casuale fino a quando non diventano puro statico. Quindi impara a invertire quel processo — passo dopo passo, prevedendo come appariva l'immagine originale a ogni fase. Al momento della generazione, inizia da rumore puro e lo "denoise" iterativamente in un'immagine coerente, guidata dal tuo prompt testuale.
È per questo che il numero di passaggi di campionamento è importante: più passaggi significano generalmente più dettagli e raffinatezza, ma anche una generazione più lenta e costi di calcolo più alti.
Spazio latente: perché la generazione è abbastanza veloce da essere pratica
Lavorare direttamente con dati di pixel a risoluzione completa sarebbe estremamente lento. I sistemi moderni come Stable Diffusion risolvono questo problema operando in spazio latente — una rappresentazione matematica compressa dell'immagine. Un encoder riduce l'immagine in questa forma compatta, il processo di diffusione si svolge lì (molto più velocemente) e un decoder espande il risultato nuovamente in pixel.
È per questo che questi modelli sono chiamati "modelli di diffusione latente". La compressione è con perdita di dati ma sorprendentemente efficace: un'immagine 512x512 potrebbe essere rappresentata come un tensore latente 64x64 durante il processo di generazione.
CLIP: collegamento tra testo e immagini
Il modello deve capire il tuo prompt per generare un'immagine rilevante. È qui che entra in gioco CLIP (Contrastive Language-Image Pre-training). CLIP è stato addestrato su centinaia di milioni di coppie di immagini e testo da internet, imparando a mappare descrizioni testuali e immagini nello stesso spazio matematico.
Quando digiti "un golden retriever con occhiali da sole su una spiaggia al tramonto", CLIP converte quel testo in un vettore numerico che codifica il significato. Il modello di diffusione utilizza questo vettore come guida durante il processo di denoising, dirigendo il rumore verso un'immagine che corrisponde alla tua descrizione. La forza di questa guida è controllata da un parametro chiamato scala CFG (guida senza classificatore) — valori più alti seguono il prompt in modo più letterale, valori più bassi danno al modello più libertà creativa.
Regolazione fine e LoRA: personalizzazione dell'output
I modelli di base sono general-purpose, ma molti utenti necessitano di stili o soggetti specifici. La regolazione fine riaddestra il modello su un dataset più piccolo e specializzato — ad esempio, un set di foto di prodotti o uno stile di illustrazione specifico.
La regolazione fine completa è costosa, quindi una tecnica chiamata LoRA (Adattamento a basso rango) è diventata standard. Invece di modificare tutti i parametri del modello, LoRA aggiunge strati di addestramento piccoli e regolabili che regolano l'output con minimo calcolo. Puoi addestrare un LoRA su 20-50 immagini di un soggetto specifico e applicarlo come un filtro sopra il modello di base. Molti LoRA creati dalla community sono disponibili per il download e possono essere combinati.
Prompt negativi e parametri di controllo
Oltre al prompt principale, la maggior parte degli strumenti consente di specificare un prompt negativo — cose che non si desidera esplicitamente nell'immagine. "Nessun testo, nessun marchio d'acqua, nessun dito extra" è un prompt negativo comune. Il modello utilizza questo per allontanarsi da output indesiderabili durante il processo di denoising.
Altri parametri chiave che si incontreranno:
- Seme: Un numero casuale che determina il rumore di partenza. Stesso seme + stesso prompt = stessa immagine, il che è utile per la riproducibilità.
- Passaggi di campionamento: Quanti iterazioni di denoising eseguire (tipicamente 20-50).
- Scala CFG: Quanto strettamente il modello segue il prompt (tipicamente 5-15).
- Risoluzione: Dimensioni dell'immagine di output. Risoluzioni più elevate richiedono più VRAM e tempo.
Modello di diffusione: Una rete neurale che genera immagini imparando a invertire un processo di aggiunta di rumore, raffinando iterativamente il rumore statico in un'immagine coerente.
Spazio latente: Una rappresentazione matematica compressa dei dati dell'immagine dove avviene la generazione effettiva, rendendo il processo computazionalmente fattibile.
CLIP: Un modello che capisce la relazione tra testo e immagini, utilizzato per guidare la generazione in base al tuo prompt.
Scala CFG: Guida senza classificatore — controlla quanto strettamente il modello segue il tuo prompt testuale rispetto alla generazione libera.
LoRA: Adattamento a basso rango — un metodo di regolazione fine leggero che consente di personalizzare l'output di un modello con un piccolo set di immagini di addestramento.
Prompt negativo: Una descrizione testuale di elementi che si desidera evitare di includere nell'immagine generata.
Cosa cercare quando si sceglie uno strumento di generazione di immagini
La tecnologia di base è simile tra gli strumenti, ma le differenze pratiche contano. Considerare: quante immagini è possibile generare al mese (le quote variano drasticamente), se lo strumento funziona localmente o in cloud (locale = più controllo ma richiede una GPU), i termini di licenza per l'uso commerciale, e se è possibile eseguire la regolazione fine o utilizzare LoRA personalizzati. Alcuni strumenti eccellono nella fotorealismo, altri nell'illustrazione o nell'arte concettuale. I confronti in questo sito suddividono queste differenze strumento per strumento.