Le novità di OpenAI annunciate durante il DevDay 2024
Durante il DevDay, l’evento di OpenAI dedicato agli sviluppatori, l’azienda ha svelato una serie di aggiornamenti rivoluzionari per le sue API, puntando a migliorare l’esperienza di chi utilizza l’intelligenza artificiale per sviluppare prodotti.
Tra le novità annunciate, emergono quattro nuove funzionalità: Model Distillation, Prompt Caching, Vision Fine-Tuning e un nuovo servizio chiamato Realtime API, progettate per rendere i modelli più efficienti, ridurre i costi e ampliare le capacità di interazione.
Model Distillation
Model Distillation è una delle innovazioni più interessanti presentate.
Questa tecnologia permette di migliorare le prestazioni dei modelli più piccoli, come GPT-4o mini, replicando le capacità dei modelli più potenti. Prima di questo aggiornamento, il processo era complesso e manuale. Con la nuova piattaforma, gli sviluppatori possono facilmente creare dataset utilizzando modelli avanzati e affinare quelli più piccoli.
Per incentivare l’adozione, OpenAI ha offerto gratuitamente alcuni milioni di token di addestramento fino al 31 ottobre, un’opportunità che sicuramente molti sviluppatori coglieranno al volo.
Prompt Caching
Prompt Caching, invece, ha l’obiettivo di ridurre i costi legati all’uso dell’API. Il problema dei prefissi lunghi nei prompt, usati per migliorare la qualità delle risposte, è che aumentano le spese per ogni richiesta.
La nuova funzione consente di memorizzare questi prefissi per un’ora e applicare uno sconto del 50% se vengono riutilizzati in prompt successivi. Una mossa che promette di rendere più sostenibili le applicazioni con casi d’uso ripetitivi.
Vision Fine-Tuning
Un altro passo avanti arriva con Vision Fine-Tuning, che consente di addestrare GPT-4o anche sulle immagini, aumentando la sua capacità di comprendere e analizzare contenuti visivi.
Questo strumento potrebbe aprire le porte a soluzioni avanzate, come un’analisi più precisa delle immagini in ambiti che vanno dalla sanità ai veicoli autonomi. Già alcune aziende hanno iniziato a sfruttare questa tecnologia per migliorare l’aspetto visivo dei siti web generati automaticamente dal modello.
Realtime API
L’ultima novità, Realtime, è un’API che permette di creare applicazioni in grado di rispondere agli utenti in tempo reale. Finora, per realizzare interazioni vocali immediate, era necessario trascrivere l’audio, passarlo a un modello linguistico e infine convertirlo in voce sintetizzata, un processo lungo e spesso insoddisfacente.
Con Realtime, l’elaborazione dell’audio è immediata, riducendo drasticamente la latenza e migliorando la qualità della voce prodotta. Il servizio consente anche di gestire contenuti multimodali, come video, aprendo nuovi scenari di utilizzo, dalla prenotazione di appuntamenti all’ordinazione di cibo.