09/10/2025
Redazione Dreams
Gemini 2.5 Computer Use: l'AI che naviga nel web come gli umani
Nel campo dell’Intelligenza Artificiale le novità sono praticamente all’ordine del giorno, con novità e passi in avanti che si susseguono praticamente giorno dopo giorno. Una delle novità più interessanti nel campo degli agenti AI è Gemini 2.5 Computer Use, appena lanciata da Google che compie così un passo decisivo verso gli agenti AI autonomi, capaci di interagire con le interfacce digitali proprio come farebbe un essere umano.
Il cuore di Gemini 2.5 Computer Use è un ciclo agentico continuo, costruito sulle già avanzate capacità di comprensione visiva e ragionamento di Gemini 2.5 Pro. Questo modello non si limita a leggere il codice di una pagina web o di una app ma vede l'interfaccia e interagisce come farebbe un qualsiasi essere umano.
Il nuovo modello utilizza capacità avanzate di comprensione visiva e di ragionamento per interpretare ciò che appare sullo schermo. Può dunque analizzare pulsanti, moduli o immagini e decidere come comportarsi per completare un compito. L’esempio più immediato è quello dei test sulle interfacce utente, ma le applicazioni potenziali vanno molto oltre: prenotare un volo, caricare un documento, cercare informazioni specifiche o persino giocare a un videogioco.
Al momento Gemini 2.5 supporta 13 azioni base, tra cui digitare testo, aprire nuove schede del browser e trascinare oggetti. Non è ancora in grado di controllare l’intero sistema operativo, ma solo la finestra del browser. La strada però è segnata.
L'impatto di questa tecnologia è enorme, specialmente per l'automazione di compiti complessi che finora richiedevano l'intervento umano o pesanti integrazioni API.
Per gli sviluppatori, l'accesso è già disponibile in anteprima tramite Google AI Studio e Vertex AI, consentendo la creazione di una nuova generazione di applicazioni AI che non si limitano a parlare, ma sanno fare.
Guarda il video di presentazione qui