AI bisa Bedakan Suara Manusia Asli dan Rekayasa Deepfake
- Pixabay/mtmmonline
Jakarta, VIVA – Kecerdasan buatan (artificial intelligence/AI) semakin mempercepat pembuatan deepfake audio, menciptakan kekhawatiran di berbagai bidang. Mulai dari politik hingga penipuan finansial.
Pemerintah Federal Amerika Serikat (AS) telah melarang robocall yang menggunakan suara AI dan menawarkan hadiah uang tunai untuk solusi yang dapat mengurangi dampak negatif dari penipuan kloning suara.
Sementara itu, peneliti dan sektor swasta berlomba-lomba mengembangkan perangkat lunak untuk mendeteksi kloning suara, yang sering dipasarkan sebagai alat pendeteksi penipuan.
Namun, solusi teknologi tidak selalu efektif dalam mendeteksi suara yang dihasilkan oleh AI. Dalam eksperimen yang dilakukan oleh NPR mengirimkan 84 klip audio berdurasi lima hingga delapan detik ke tiga penyedia deteksi audio deepfake, yakni Pindrop Security, AI or Not, dan AI Voice Detector.
Sekitar setengah dari klip tersebut adalah cuplikan cerita radio asli, sementara sisanya adalah suara kloning dari reporter yang sama.
Hasil eksperimen menunjukkan bahwa perangkat lunak deteksi sering kali gagal mengidentifikasi klip yang dihasilkan oleh AI atau salah mengidentifikasi suara asli sebagai suara AI.
Pindrop Security memiliki tingkat keberhasilan tertinggi, sementara AI or Not gagal mengidentifikasi sebagian besar klip yang dihasilkan oleh AI.
CEO AI Voice Detector Abdellah Azzouzi menjelaskan bahwa jika model memprediksi sebuah klip memiliki kemungkinan 60 persen atau lebih besar dihasilkan oleh AI, maka klip tersebut dianggap dihasilkan oleh AI.
Namun, alat ini salah mengidentifikasi 20 dari 84 sampel yang dikirimkan oleh NPR. Meskipun menggunakan AI untuk mendeteksi AI adalah pendekatan yang menjanjikan, ada banyak tantangan yang harus dihadapi.
Salah satu tantangan utama adalah kebutuhan untuk melatih model pembelajaran mesin pada setiap generator audio AI baru di pasaran untuk mendeteksi perbedaan halus antara mereka dan suara manusia asli.
Amit Gupta, Kepala Produk Pindrop Security, menjelaskan bahwa salah satu cara algoritma mereka bekerja adalah dengan merekayasa balik traktus vokal, properti fisik tubuh seseorang yang diperlukan untuk menghasilkan suara.
Selain itu, model pembelajaran mesin dapat dengan mudah terganggu di dunia nyata. Akurasi dapat menurun jika audio terdegradasi atau mengandung kebisingan latar belakang.
Sarah Barrington, seorang peneliti AI dan forensik di University of California, Berkeley, AS mengatakan bahwa algoritma khusus dapat mendeteksi deepfake dari pemimpin dunia yang suaranya sudah dikenal dan didokumentasikan dengan baik, seperti Presiden AS Joe Biden. Namun, itu tidak akan berlaku untuk orang yang kurang dikenal.
Ada juga upaya dari perusahaan teknologi besar seperti Meta, TikTok, dan X untuk mengembangkan teknologi yang dapat menandai, mendeteksi, dan melabeli konten realistis yang dibuat dengan AI.
Namun, sebagian besar upaya ini tampaknya lebih fokus pada video, dan tidak jelas apakah itu juga termasuk audio. Untuk panggilan penipuan yang menyamar sebagai orang terkasih, tidak ada deteksi teknologi tinggi yang efektif.
FTC merekomendasikan untuk membuat pertanyaan yang tidak akan diketahui oleh penipu sebagai jawaban sebelumnya dan menelepon kembali untuk memastikan panggilan tersebut tidak dipalsukan.
Meskipun ada kemajuan dalam teknologi deteksi deepfake audio, tantangan masih banyak. Perangkat lunak deteksi yang salah dapat membawa dampak serius, dan dengan model deepfake baru yang sering dirilis, ini menjadi permainan yang terus berkembang.