Apple introduce “MGIE”: un modello di IA avanzato per la modifica delle immagini tramite testo
Apple ha annunciato MGIE, un innovativo modello di intelligenza artificiale open source, capace di modificare le immagini seguendo comandi testuali.
Il sistema MGIE, il nui nome sta per MLLM-Guided Image Editing (in italiano sarebbe Modifica delle immagini da modelli di linguaggio multimodali), utilizza dei modelli di linguaggio avanzati per comprendere le richieste degli utenti e apportare modifiche alle immagini precise a livello di pixel. Le funzionalità di MGIE spaziano dalla modifica in pieno stile Photoshop, all’ottimizzazione generale della foto, e alla cura di ogni singolo dettaglio.
Il progetto MGIE nasce dalla collaborazione tra Apple e un team di ricercatori dell’Università della California, Santa Barbara. Il loro lavoro è stato presentato e accettato alla “International Conference on Learning Representations” (ICLR) del 2024, una delle più prestigiose conferenze nel campo della ricarica sull’IA. Lo studio pubblicato evidenzia le capacità di MGIE nel migliorare metriche e valutazioni umane, garantendo al tempo stesso un’alta efficienza.
Come funziona MGIE?
MGIE si avvale dei MLLM, modelli di IA in grado di elaborare testi e immagini, e migliorare i comandi per la modifica ed il fotoritocco delle immagini. Questi modelli hanno dimostrato eccellenti capacità di comprensione intermodale, fornendo output e risposte consapevoli di “quello che vedevano”, ma finora il loro impiego nel campo della modifica delle immagini era limitato.
Il modello integra i MLLM nel processo di editing in due fasi: inizialmente, interpreta le istruzioni fornite dagli utenti trasformandole in comandi chiari e precisi. Ad esempio l’input “rendere il cielo più azzurro” diventa “aumentare del 20% la saturazione del cielo”. Successivamente, MGIE utilizza i MMLM per creare un’effettiva rappresentazione dell’effetto richiesto, con modifica pixel dopo pixel. Questo approccio si basa su nuovo schema di addestramento che ottimizza simultaneamente le fasi di interpretazione delle istruzioni, generazione e modifica dell’immagine.
Quali sono le potenzialità di MGIE
MGIE può essere utilizzato in un grade numero di contesti, dalle semplici regolazioni cromatiche alle complesse modifiche di oggetti nelle immagini. Il modello è versatile e garantisce sia modifiche estese che precise. Tra le principali funzionalità di MGIE troviamo:
- Editing guidato da istruzioni precise: MGIE elabora indicazioni chiare e dettagliate, migliorando la qualità delle modifiche e l’esperienza utente
- Modifiche al pari di Photoshop: MGIE gestisce operazioni comuni come ritagli, ridimensionamenti, rotazioni, inversioni e aggiunta di filtri, oltre a operazioni più complesse come la modifica dello sfondo, l’aggiunta o rimozione di elementi in background e la fusione di immagini
- Regolazione dell’immagine: MGIE è in grado di perfezionare la qualità generale delle foto, regolando luminosità, contrasto, nitidezza e bilanciamento dei colori, e può applicare effetti artistici come disegno, pittura e stile cartoon
- Modifica di una singola area: Il sistema permette di intervenire su specifiche aree o oggetti dell’immagine, modificandone attributi come forma, dimensione, colore, texture e stile
Come e dove utilizzare MGIE
MGIE è disponibile come progetto open source su GitHub, quindi è possibile accedere al codice, ai dati e ai modelli pre-addestrati. È possibile utilizzare MGIE online e gratuitamente su una demo web di Hugging Face Space, piattaforma dedicata alla condivisione e alla collaborazione su progetti di machine learning.
Perchè è così importante MGIE?
MGIE è un vero e proprio punto di svolta nell’editing delle immagini basato sui comandi testuali, un ambito complesso, ma cruciale per l’avanzamento dell’intelligenza artificiale e della creatività umana. Il modello dimostra come l’uso dei MLLM possa arricchire il processo di modifica delle immagini, aprendo nuove frontiere per l’interazione e la comunicazione intermodale.
Per Apple, MGIE sottolinea l’impegno e l’eccellenza dell’azienda nel campo della ricerca e dello sviluppo sull’IA. Con un rapido avanzamento delle sue competenze in machine learning, MGIE si conferma come la dimostrazione più eclatante fino ad ora di come l’intelligenza artificiale possa innovare le pratiche creative quotidiane.