mercoledì 6 dicembre 2023

Google presenta Gemini, l’IA che potrebbe surclassare GPT 4 ed essere l’assistente definitivo per le persone con disabilità visive

 

L'immagine mostra un paesaggio digitale con un cervello AI futuristico al centro, simboleggiando Gemini e circondato da elementi diversi che rappresentano le sue capacità multimodali.

Google gemini


Oggi 6 dicembre 2023, a poco piu di 12 mesi dal lancio di Chat GPT, il mondo dell'intelligenza artificiale (AI) ha assistito al lancio di un progetto rivoluzionario da parte di Google DeepMind: il progetto Gemini. Questo sviluppo segna un interessante passo avanti nella ricerca AI, posizionandosi come risposta di Google al modello GPT-4 di OpenAI e suscitando un considerevole interesse nella comunità scientifica e tecnologica.


Panoramica di Gemini


Gemini è un modello di AI multimodale, progettato per processare e interpretare diversi tipi di input: testo, immagini e audio. Questa capacità multimodale gli permette di rispondere a una vasta gamma di domande, dall'assistenza domestica alla matematica universitaria, fino a temi economici. In una dimostrazione, Gemini ha mostrato la capacità di aggiornare un grafico con nuovi dati analizzando centinaia di pagine di ricerca, e di interpretare visivamente lo stato di cottura di un'omelette. La sua integrazione nel chatbot basato su testo Bard di Google mira a potenziarne le capacità di ragionamento, pianificazione e comprensione.


Comparazione con GPT-4 e Prestazioni


Sebbene Gemini superi GPT-4 in 30 delle 32 misure standard di prestazione, la differenza tra i due modelli è minima. Questo suggerisce che, nonostante i progressi significativi per Google, il passo avanti per il campo dell'AI nel suo complesso potrebbe non essere così grande. Gemini è disponibile in tre versioni - Ultra, Pro e Nano - ognuna adatta a diverse esigenze di risorse computazionali. Questa diversificazione rende Gemini accessibile a una gamma più ampia di applicazioni e dispositivi.


Benchmark e Valutazione


Gemini si è distinto particolarmente nel benchmark MMLU (Massive Multitask Language Understanding), superando sia gli umani che GPT-4 in diverse aree. Ma esiste una certa preoccupazione riguardo l'efficacia di questi benchmark nella valutazione di un modello destinato a scopi così diversificati. Nonostante i miglioramenti, Gemini, come altri modelli di grandi dimensioni, continua a presentare problemi come la creazione di contenuti non veritieri (hallucinations) e bias impliciti.


Sfide e Prospettive Future


La strada per Gemini non è stata senza ostacoli. Google ha imparato dai suoi precedenti errori nel lancio di prodotti AI non perfetti, come Bard. Abbiamo infatti parlato in passato su TecnoAccess dei gravi problemi che affliggevano e affliggono tutt’ora bard, tra i quali ricordiamo informazioni non veritiere in ogni ambito (allucinations) e si dimostra molto lontano dalle capacità di GPT. Queste esperienze hanno spinto Google a una maggiore prudenza nel rilascio di nuovi modelli AI, bilanciando l'innovazione con le preoccupazioni sulla sicurezza e la reputazione.

 Il futuro di Gemini e dei modelli AI multimodali in generale sembra promettente, ma anche incerto. Mentre alcuni ricercatori vedono questo come un picco nell'AI generativa, altri, come il CEO di Google Sundar Pichai, ritengono che ci siano ancora molte innovazioni da scoprire.


Gemini e la Sintesi Vocale per Non Vedenti


Un aspetto particolarmente interessante di Gemini è la sua potenziale applicazione nella sintesi vocale per utenti non vedenti. Considerando la sua natura multimodale e la capacità di interpretare e rispondere a input audio, Gemini potrebbe rivoluzionare l'accessibilità per i non vedenti. Ad esempio, l'integrazione di Gemini con sistemi come VoiceOver potrebbe offrire un'esperienza utente più fluida e intuitiva, consentendo una migliore comprensione del contesto e delle richieste vocali. Ad oggi sia Bard che Chat GPT così come la maggior parte dei modelli sono accessibili con le principali sintesi vocali.

Supposizioni sul Futuro di Gemini e VoiceOver

Anche se non ci sono ancora dettagli specifici sull'integrazione di Gemini con VoiceOver, possiamo ipotizzare che tale integrazione sia presente. Essa porterebbe notevoli miglioramenti nelle funzionalità di assistenza vocale. Gemini potrebbe fornire risposte più precise e contestualizzate, migliorando significativamente l'interazione quotidiana per gli utenti non vedenti. Potrebbe, ad esempio, descrivere in modo dettagliato immagini o ambienti circostanti, o assistere in attività complesse basate su input vocali. Ad oggi, l’unica IA capace di fare questo è GPT 4, con Gpt vision integrato in GPT Plus o tramite il chatbot di BeMyEyes.


Considerazioni finali e data di uscita

Siamo in trepidante attesa di provare Gemini. il progetto rappresenta un passo interessante nella ricerca e nello sviluppo dell'AI. il suo potenziale impatto sulla società e sulla tecnologia è immenso, specialmente nel campo dell'accessibilità per non vedenti. La data di uscita prevista per la versione più avanzata di Google Gemini non è stata specificata in dettaglio, ma alcune fonti indicano che Google prevede di rilasciare Gemini Ultra, la versione più potente del modello, all'inizio del prossimo anno. Si prevede che questo rilascio avverrà dopo "estesi controlli di fiducia e sicurezza"​​.

Nel frattempo, Gemini Pro, una versione leggermente meno avanzata del modello, sarebbe stata resa accessibile agli sviluppatori e alle aziende a partire dal 13 dicembre 2023​​. Questi piani di rilascio indicano che Google sta procedendo con cautela, probabilmente per affrontare e mitigare eventuali problemi di sicurezza o reputazionali prima di un lancio più ampio. Non ci rimane che attendere per provare Gemini, che google presenta come il nuovo colosso dell’intelligenza artificiale.

Nessun commento:

Posta un commento