OpenAI melalui model GPT-4o kini memungkinkan robot memahami dan merespons visual secara langsung tanpa sensor tambahan atau kode kompleks. Teknologi ini membuka jalan baru bagi interaksi manusia-robot yang lebih alami dan instan.
Dalam demonstrasi terbarunya, GPT-4o menunjukkan kemampuan mengontrol robot hanya dengan data visual seperti informasi jarak sederhana — misalnya “<distance: 10cm>” — yang langsung dipahami dan diterjemahkan menjadi gerakan fisik. Tanpa perlu pemrograman lanjutan, robot dapat mengambil objek, menghindar, hingga bereaksi secara refleks layaknya tangan manusia.
Yang membuatnya revolusioner: semua dilakukan tanpa sensor tambahan dan dalam waktu respons secepat kilat.
Kemampuan ini disebut sebagai langkah penting menuju sistem closed-loop, yaitu interaksi penuh antara input visual dan instruksi suara atau teks, sehingga robot dapat “melihat”, “mendengar”, dan langsung “bertindak”.
“Ini bukan lagi skenario masa depan. Ini teknologi yang sudah ada dan siap dikembangkan untuk aplikasi nyata,” ujar juru bicara OpenAI dalam siaran resmi.
Potensinya luas — dari otomatisasi industri, asisten rumah tangga, hingga alat bantu untuk disabilitas. Dengan integrasi penuh antara persepsi visual dan pemahaman AI multimodal, robot dapat menyesuaikan tindakan tanpa instruksi manual yang rumit.
Perpaduan GPT-4o dan sistem penglihatan real-time menandai lompatan besar dalam dunia robotika. Kita kini memasuki era baru di mana robot tak hanya pintar secara teori, tapi juga gesit secara aksi.