(Business Lounge Journal – Global News)
Sebuah startup kecerdasan buatan mengatakan telah menemukan ribuan kerentanan pada program AI generatif populer dan merilis daftar temuannya. Setelah menguji program AI generatif populer termasuk pembuat video Pika, ChatGPT yang berfokus pada teks, generator gambar Dall-E, dan sistem AI yang menghasilkan kode komputer, Haize Labs menemukan bahwa banyak perangkat terkenal menghasilkan konten kekerasan atau seksual, memberi petunjuk kepada pengguna tentang produksi senjata kimia dan biologi, dan memungkinkan otomatisasi serangan siber. Haize adalah perusahaan rintisan kecil berusia lima bulan yang didirikan oleh Leonard Tang, Steve Li, dan Richard Liu, tiga lulusan baru yang semuanya bertemu di perguruan tinggi. Secara kolektif, mereka menerbitkan 15 makalah tentang pembelajaran mesin saat mereka masih sekolah.
Tang menggambarkan Haize sebagai “penguji stres pihak ketiga yang independen” dan mengatakan tujuan perusahaannya adalah membantu membasmi masalah dan kerentanan AI dalam skala besar. Menunjuk salah satu perusahaan pemeringkat obligasi terbesar sebagai pembanding, Tang mengatakan Haize berharap menjadi “Moody’s for AI” yang menetapkan peringkat keselamatan publik untuk model-model populer. Keamanan AI menjadi perhatian yang berkembang karena semakin banyak perusahaan mengintegrasikan AI generatif ke dalam penawaran mereka dan menggunakan model bahasa yang besar dalam produk-produk konsumen. Bulan lalu, Google menghadapi kritik tajam setelah alat eksperimentalnya “AI Overviews”, yang dimaksudkan untuk menjawab pertanyaan pengguna, menyarankan aktivitas berbahaya seperti memakan satu batu kecil per hari atau menambahkan lem ke pizza. Pada bulan Februari, Air Canada mendapat kecaman ketika chatbot berkemampuan AI-nya menjanjikan diskon palsu kepada seorang pelancong.
Pengamat industri telah menyerukan cara yang lebih baik untuk mengevaluasi risiko alat-alat AI. “Seiring dengan semakin meluasnya penerapan sistem AI, kita akan membutuhkan lebih banyak organisasi untuk menguji kemampuan dan potensi penyalahgunaan atau masalah keamanannya,” tulis Jack Clark, salah satu pendiri perusahaan riset dan keamanan AI Anthropic, baru-baru ini di X. “Yang kami pelajari adalah bahwa terlepas dari semua upaya keamanan yang telah dilakukan oleh perusahaan-perusahaan besar dan laboratorium industri ini, masih sangat mudah untuk membujuk model-model ini melakukan hal-hal yang tidak seharusnya mereka lakukan; model-model ini tidak begitu aman,” kata Tang. Pengujian Haize mengotomatiskan “red teaming,” praktik simulasi tindakan yang berlawanan untuk mengidentifikasi kerentanan dalam sistem AI. “Anggap saja kami mengotomatiskan dan mengkristalkan ketidakjelasan seputar memastikan model mematuhi standar keamanan dan kepatuhan AI,” kata Tang.
Industri AI membutuhkan entitas keamanan yang independen, kata Graham Neubig, profesor madya ilmu komputer di Universitas Carnegie Mellon. “Alat keamanan AI pihak ketiga penting,” kata Neubig. “Alat-alat tersebut adil dan tidak memihak karena tidak dibuat oleh perusahaan yang membuat model itu sendiri. Selain itu, alat keamanan pihak ketiga dapat memiliki kinerja yang lebih tinggi dalam hal audit karena alat tersebut dibuat oleh organisasi yang mengkhususkan diri dalam hal itu, dibandingkan dengan setiap perusahaan yang membuat alat mereka sendiri secara ad hoc.”
Haize membuka sumber serangan yang terungkap dalam tinjauannya pada platform pengembang GitHub untuk meningkatkan kesadaran tentang perlunya keamanan AI. Haize mengatakan bahwa pihaknya secara proaktif menandai kerentanan tersebut kepada pembuat alat AI yang diuji, dan perusahaan rintisan tersebut telah bermitra dengan Anthropic untuk melakukan uji stres pada produk algoritmik yang belum dirilis.
Tang mengatakan bahwa membasmi kerentanan dalam platform AI melalui sistem otomatis sangat penting karena menemukan masalah secara manual membutuhkan waktu lama dan membuat mereka yang bekerja dalam moderasi konten terpapar pada konten yang kasar dan mengganggu. Beberapa konten yang ditemukan melalui tinjauan Haize Labs terhadap alat AI generatif yang populer mencakup gambar dan teks yang mengerikan dan grafis. “Terlalu banyak wacana tentang masalah keamanan yang menguasai dunia,” kata Tang. “Saya pikir itu penting, tetapi masalah yang jauh lebih besar adalah penyalahgunaan AI dalam jangka pendek.”
Photo by Steve Johnson