kajian kelemahan tersembunyi menunjukkan chatGPT dan Gemini masih boleh ditipu walaupun latihan keselamatan
Berita Harian AI

Kerentanan Tersembunyi: Rancangan Kajian ChatGPT dan Gemini Masih Boleh Ditipu Walaupun Latihan Keselamatan

Kebimbangan terhadap keselamatan AI kembali memuncak minggu ini apabila penyelidikan baharu mendapati bahawa chatbots paling popular daripada gergasi teknologi termasuk OpenAI's ChatGPT dan Google's Gemini masih boleh didorong untuk memberikan respons terhad atau berbahaya dengan lebih kerap daripada yang diingini oleh pembangun mereka.

Model-model itu boleh didorong untuk menghasilkan keluaran terlarang 62% daripada masa dengan beberapa ayat yang ditulis dengan bijak, menurut satu kajian yang diterbitkan dalam International Business Times.

Sungguh melucukan bahawa sesuatu yang tidak berbahaya seperti ayat - satu bentuk ekspresi diri yang mungkin kita kaitkan dengan surat cinta, Shakespeare atau mungkin sekolah menengah yang takut - akhirnya melakukan tugas dua kali untuk eksploitasi keselamatan.

Walau bagaimanapun, penyelidik yang bertanggungjawab untuk eksperimen itu berkata pembingkaian gaya adalah mekanisme yang membolehkan mereka memintas perlindungan yang boleh diramalkan.

Keputusan mereka mencerminkan amaran sebelumnya daripada orang seperti ahli Pusat Keselamatan AI, yang telah menyuarakan tentang tingkah laku model yang tidak dapat diramalkan dengan cara yang berisiko tinggi.

Masalah yang sama timbul pada akhir tahun lepas apabila model Claude Anthropic terbukti mampu menjawab gesaan ancaman biologi yang disamarkan yang tertanam dalam cerita fiksyen.

Pada masa itu, Kajian Teknologi MIT menggambarkan kebimbangan penyelidik tentang "gesaan tidur," arahan yang terkubur dalam teks yang kelihatan tidak berbahaya.

Keputusan minggu ini membawa kebimbangan itu setapak lagi: jika keseronokan dengan bahasa sahaja – sesuatu yang santai seperti rima – boleh menyelinap di sekeliling penapis, apakah yang dikatakan tentang kerja penjajaran kecerdasan yang lebih luas?

Penulis mencadangkan bahawa kawalan keselamatan sering memerhatikan isyarat permukaan cetek dan bukannya surat-menyurat yang lebih mendalam.

Dan sebenarnya, itu mencerminkan jenis perbincangan yang dilakukan oleh banyak pembangun di luar rekod selama beberapa bulan.

Anda mungkin masih ingat bahawa OpenAI dan Google, yang terlibat dalam permainan AI ikut pantas, telah berusaha keras untuk menyerlahkan keselamatan yang lebih baik.

Malah, kedua-dua Laporan Keselamatan OpenAI dan blog DeepMind Google telah menegaskan bahawa pagar penghadang hari ini lebih kuat berbanding sebelum ini.

Namun begitu, keputusan dalam kajian itu nampaknya menunjukkan terdapat perbezaan antara penanda aras makmal dan penyelidikan dunia sebenar.

Dan untuk sedikit tambahan perkembangan dramatik - mungkin juga keadilan puitis - para penyelidik tidak menggunakan beberapa teknik "jailbreak" biasa yang dilambungkan di papan forum.

Mereka hanya menyusun semula soalan sempit dalam bahasa puitis, seperti anda meminta bimbingan beracun yang dicapai melalui metafora berima.

Tiada ancaman, tiada tipu helah, tiada kod kiamat. Cuma…puisi. Kekurangan kesesuaian aneh antara niat dan gaya itu mungkin yang menyebabkan sistem ini meningkat.

Persoalan yang jelas ialah apakah ini semua bermakna untuk peraturan, sudah tentu. Kerajaan telah pun merangkak ke arah peraturan untuk AI, dan Akta AI EU secara langsung menangani tingkah laku model berisiko tinggi.

Penggubal undang-undang tidak akan merasa sukar untuk mengambil kajian ini sebagai bukti positif bahawa syarikat masih tidak melakukan cukup.

Sesetengah percaya jawapannya adalah "latihan lawan" yang lebih baik. Yang lain memerlukan organisasi Pasukan Merah yang bebas, sementara segelintir terutamanya penyelidik akademik berpendapat bahawa ketelusan di sekeliling model dalaman akan memastikan keteguhan jangka panjang.

Secara anekdot, setelah melihat beberapa eksperimen ini di makmal yang berbeza sekarang, saya cenderung ke arah beberapa gabungan ketiga-tiganya.

Jika AI akan menjadi sebahagian besar masyarakat, ia perlu dapat menangani lebih daripada soalan ringkas, mengikut buku.

Sama ada eksploitasi berasaskan sajak terus menjadi trend baharu dalam ujian AI atau hanya satu lagi nota kaki lucu dalam sejarah penyelidikan keselamatan, kerja ini berfungsi sebagai peringatan tepat pada masanya bahawa walaupun sistem kami yang paling maju bergantung pada pagar yang tidak sempurna yang boleh berkembang dari semasa ke semasa.

Kadang-kadang retakan itu muncul hanya apabila seseorang berfikir untuk bertanya soalan berbahaya seperti yang mungkin dilakukan oleh seorang penyair.

Apakah reaksi anda?

Teruja
0
kehidupan keluarga yang bahagia
0
In Love
0
Tidak pasti
0
Bodoh
0
Mark Borg
Mark pakar dalam kejuruteraan robotik. Dengan latar belakang dalam kedua-dua kejuruteraan dan AI, dia terdorong untuk mencipta teknologi termaju. Pada masa lapang, dia gemar bermain catur dan berlatih strateginya.

    Awak juga mungkin menyukai

    Lagi dalam:Berita Harian AI