Google, tarayıcı penceresi içinde tıklayıp kaydırabilen, yazı yazabilen ve API’si olmayan arayüzlerde dahi işlem yapabilen yeni yapay zekâ modelini ön izlemeye açtı: Gemini 2.5 Computer Use. Model, bir isteği görsel anlama + akıl yürütme yetenekleriyle çözümlüyor; örneğin bir formu doldurup gönderebiliyor.
Arayüzü insanlar için tasarlanmış sitelerde ajan görevleri
- API’si olmayan servislerde gezinebilir, formları doldurabilir, sayfalar arasında tıklama/scroll ile dolaşabilir.
- UI testlerinde veya sadece insanlar için tasarlanmış arayüzlerde otomasyon gerektiren görevleri üstlenebilir.
- Benzer yetenekler, Google’ın ajan tabanlı denemeleri olan AI Mode ve araştırma prototipi Project Mariner’da da kullanılmıştı (ör. malzeme listesine göre sepete ürün eklemek).
Rekabet bağlamı
Duyuru, OpenAI’nin Dev Day etkinliğinde ChatGPT için yeni uygulamaları tanıtmasının bir gün sonrasına denk geliyor; OpenAI hâlen ChatGPT Agent özelliğine odaklanıyor. Anthropic de geçen yıl “computer use” kabiliyetine sahip bir Claude sürümünü paylaşmıştı.
Google’ın iddiaları ve mevcut sınırlar
- Google, modelin web ve mobil odaklı çeşitli kıyaslamalarda öncül rakipleri geride bıraktığını söylüyor.
- Ancak bu sürüm, tüm bilgisayara değil yalnızca tarayıcıya erişiyor; Google, henüz masaüstü işletim sistemi düzeyinde kontrol için optimize edilmediğini belirtiyor.
- Şu anda 13 eylem destekleniyor: tarayıcı açma, metin yazma, sürükle-bırak vb.
- Paylaşılan demo videoları 3× hızlandırılmış.
Geliştiriciler için erişim ve canlı demolar
Gemini 2.5 Computer Use, Google AI Studio ve Vertex AI üzerinden geliştiricilere sunuluyor. Ayrıca Browserbase üzerinde “2048 oyna” veya “Hacker News’te trend tartışmalara göz at” gibi görevleri adım adım yerine getirirken canlı izleyebileceğiniz bir demo da var.
