Google Gemini, Platform Kecerdasan Buatan Generatif Baru
- arstechnica
VIVA Tekno – Google berusaha menciptakan gebrakan dengan Gemini, platform kecerdasan buatan generatif baru yang baru-baru ini membuat debut besar.Â
Apa itu Gemini?
Dikutip dari techcrunch, Gemini adalah keluarga model kecerdasan buatan generatif terbaru dari Google, yang dikembangkan oleh laboratorium riset kecerdasan buatan Google, DeepMind, dan Google Research. Ini hadir dalam tiga varian:
- Gemini Ultra, model unggulan Gemini
- Gemini Pro, model Gemini versi "lite"
- Gemini Nano, model lebih kecil yang berjalan di perangkat seluler seperti Pixel 8 Pro
Semua model Gemini dilatih untuk menjadi "multimodal secara alami", dengan kata lain, mampu bekerja dengan dan menggunakan lebih dari sekadar teks. Mereka dilatih dan disesuaikan sebelumnya pada berbagai audio, gambar, dan video, sekumpulan besar kode sumber, dan teks dalam berbagai bahasa.
Hal ini membedakan Gemini dari model-model lain seperti LaMDA, model bahasa besar milik Google, yang hanya dilatih pada data teks. LaMDA tidak dapat memahami atau menghasilkan apa pun selain teks (misalnya, esai, draft email, dan sebagainya), tetapi tidak demikian halnya dengan model Gemini. Kemampuan mereka untuk memahami gambar, audio, dan modalitas lainnya masih terbatas, tetapi lebih baik daripada tidak ada.
Apa perbedaan antara Bard dan Gemini?
Google, sekali lagi membuktikan bahwa mereka kurang mahir dalam hal branding, tidak menjelaskan dengan jelas bahwa Gemini terpisah dan berbeda dari Bard.Â
Bard hanyalah antarmuka melalui mana beberapa model Gemini dapat diakses, bayangkan sebagai aplikasi atau klien untuk Gemini dan model kecerdasan buatan generatif (gen AI) lainnya. Gemini, di sisi lain, adalah keluarga model, bukan aplikasi atau antarmuka pengguna.Â
Tidak ada pengalaman Gemini mandiri, dan kemungkinan besar tidak akan pernah ada. Jika dibandingkan dengan produk OpenAI, Bard setara dengan ChatGPT, aplikasi kecerdasan buatan percakapan populer milik OpenAI, dan Gemini setara dengan model bahasa yang menggerakkannya, yang dalam kasus ChatGPT adalah GPT-3.5 atau 4.
Mencurigakan, Gemini juga sepenuhnya independen dari Imagen-2, model teks-ke-gambar yang mungkin atau mungkin tidak cocok dengan strategi kecerdasan buatan keseluruhan perusahaan. Jangan khawatir, Anda bukan satu-satunya yang bingung oleh hal ini!
Apa yang bisa dilakukan Gemini?
Karena model Gemini bersifat multimodal, mereka pada dasarnya dapat melakukan berbagai tugas, mulai dari mengetikkan pidato hingga memberi keterangan pada gambar dan video hingga menghasilkan karya seni.Â
Sedikit dari kemampuan ini telah mencapai tahap produk (lebih lanjut tentang hal ini nanti), tetapi Google menjanjikan semuanya dan lebih banyak lagi, pada suatu waktu tidak terlalu jauh di masa depan.
Google sangat mengecewakan dengan peluncuran Bard asli. Dan baru-baru ini, mereka membuat kehebohan dengan video yang mengklaim menunjukkan kemampuan Gemini yang ternyata sangat dimanipulasi dan lebih bersifat aspirasional. Gemini memang, patut diakui, tersedia dalam bentuk tertentu, tetapi dalam bentuk yang agak terbatas.
Namun, asalkan Google cukup jujur dengan klaim-klaimnya, inilah yang dapat dilakukan oleh berbagai tingkatan model Gemini begitu mereka dirilis:
Gemini Ultra
Hanya sejumlah "pelanggan terpilih" di beberapa aplikasi dan layanan Google yang telah mengakses Gemini Ultra, model "dasar" yang menjadi fondasi bagi model lainnya.Â
Situasi ini tidak akan berubah hingga akhir tahun ini, ketika Google berencana untuk meluncurkan model terbesarnya ini secara lebih luas. Sebagian besar informasi mengenai Ultra berasal dari demonstrasi produk yang dipimpin oleh Google, oleh karena itu sebaiknya diterima dengan sedikit sikap skeptis.
Google menyatakan bahwa Gemini Ultra dapat digunakan untuk membantu berbagai hal, seperti menyelesaikan tugas fisika, menyelesaikan masalah langkah demi langkah pada lembar kerja, dan menyoroti kemungkinan kesalahan dalam jawaban yang sudah diisi.Â
Gemini Ultra juga dapat diterapkan pada tugas-tugas lain, seperti mengidentifikasi makalah ilmiah yang relevan untuk suatu masalah, mengekstrak informasi dari makalah tersebut, dan "memperbarui" grafik dari suatu makalah dengan menghasilkan rumus yang diperlukan untuk membuat grafik tersebut dengan data yang lebih baru.
Dari segi teknis, Gemini Ultra mendukung generasi gambar, seperti yang telah disebutkan sebelumnya. Namun, kemampuan ini tidak akan diimplementasikan dalam versi produk model saat peluncuran, menurut pernyataan Google, mungkin karena mekanisme ini lebih kompleks daripada cara aplikasi seperti ChatGPT menghasilkan gambar.
Sebagai gantinya, Gemini menghasilkan gambar "secara alami" tanpa melalui langkah perantara, berbeda dengan cara aplikasi seperti ChatGPT menggunakan generator gambar seperti DALL-E 3.
Gemini Pro
Gemini Pro, di sisi lain, sudah tersedia secara publik saat ini. Namun, dalam konteks yang membingungkan, kemampuannya bergantung pada tempat penggunaannya. Google menyatakan bahwa di Bard, di mana Gemini Pro pertama kali diluncurkan dalam bentuk teks saja, model ini memberikan peningkatan dalam pemikiran, perencanaan, dan pemahaman dibandingkan dengan LaMDA.Â
Sebuah studi independen oleh peneliti dari Carnegie Mellon dan BerriAI menemukan bahwa Gemini Pro memang lebih unggul daripada GPT-3.5 milik OpenAI dalam menangani rangkaian pemikiran yang lebih panjang dan kompleks.
Namun, studi juga menemukan bahwa, seperti semua model bahasa besar, Gemini Pro mengalami kesulitan terutama dalam masalah matematika yang melibatkan beberapa digit, dan pengguna menemukan banyak contoh kesalahan penalaran dan kesalahan fakta.Â
Model ini sering membuat kesalahan sederhana, bahkan dalam pertanyaan yang seharusnya mudah seperti pemenang Oscar terbaru. Google telah berjanji untuk melakukan perbaikan, namun belum jelas kapan perbaikan tersebut akan diimplementasikan.
Gemini Pro juga dapat diakses melalui API di Vertex AI, platform pengembang kecerdasan buatan yang sepenuhnya dikelola oleh Google. Endpoint tambahan, Gemini Pro Vision, mampu memproses teks dan gambar, termasuk foto dan video, dan menghasilkan teks sebagaimana model GPT-4 dengan Vision milik OpenAI.
Di dalam Vertex AI, pengembang dapat menyesuaikan Gemini Pro untuk berbagai konteks dan kasus penggunaan dengan menggunakan proses penyesuaian atau "grounding." Gemini Pro juga dapat terhubung ke API eksternal pihak ketiga untuk melaksanakan tindakan tertentu.
Pada suatu waktu di "awal 2024," pelanggan Vertex akan dapat menggunakan Gemini Pro untuk menggerakkan agen suara dan agen obrolan konversasional yang dibangun khusus (contohnya, chatbot). Selain itu, Gemini Pro juga akan menjadi opsi untuk mengemudikan fitur summarization pencarian, rekomendasi, dan generasi jawaban di Vertex AI, dengan mengambil informasi dari dokumen lintas modalitas (seperti PDF dan gambar) dari berbagai sumber (seperti OneDrive dan Salesforce) untuk memenuhi pertanyaan.
Di AI Studio, alat berbasis web dari Google untuk pengembang aplikasi dan platform, tersedia alur kerja untuk membuat prompt bebas, terstruktur, dan obrolan menggunakan Gemini Pro.Â
Pengembang memiliki akses ke kedua endpoint, baik Gemini Pro maupun Gemini Pro Vision, dan mereka dapat menyesuaikan suhu model untuk mengendalikan kreativitas keluaran dan memberikan contoh untuk memberikan instruksi terkait gaya dan gaya, serta menyesuaikan pengaturan keamanan.
Gemini Nano
Gemini Nano, sebagai versi yang jauh lebih kecil dari model Gemini Pro dan Ultra, cukup efisien untuk dijalankan langsung di (beberapa) ponsel, tidak seperti mengirimkan tugas ke server di suatu tempat. Sampai saat ini, Gemini Nano digunakan untuk menggerakkan dua fitur pada Pixel 8 Pro: "Ringkas" di aplikasi Perekam dan "Balasan Cerdas" di Gboard.
Aplikasi Perekam memungkinkan pengguna untuk menekan tombol untuk merekam dan mentranskripsi audio, dan menyertakan ringkasan berdaya Gemini dari percakapan yang direkam, wawancara, presentasi, dan cuplikan lainnya. Pengguna dapat mendapatkan ringkasan tersebut bahkan tanpa sinyal atau koneksi Wi-Fi.