OpenAI memeriksa untuk melihat apakah GPT-4 dapat mengambil alih dunia

Ars Technica
Sebagai bagian dari pengujian keamanan pra-rilis untuk mannequin AI GPT-4 barunya, yang diluncurkan Selasa, OpenAI memungkinkan grup pengujian AI untuk menilai potensi risiko dari kemampuan yang muncul dari mannequin tersebut—termasuk “perilaku pencarian daya”, replikasi diri, dan perbaikan diri.
Sementara kelompok pengujian menemukan bahwa GPT-4 “tidak efektif dalam tugas replikasi otonom,” sifat percobaan menimbulkan pertanyaan yang membuka mata tentang keamanan sistem AI di masa depan.
Menaikkan alarm
“Kemampuan baru sering muncul dalam mannequin yang lebih bertenaga,” tulis OpenAI dalam dokumen keamanan GPT-4 yang diterbitkan kemarin. “Beberapa yang sangat memprihatinkan adalah kemampuan untuk membuat dan bertindak berdasarkan rencana jangka panjang, untuk memperoleh kekuatan dan sumber daya (“pencarian kekuasaan”), dan untuk menunjukkan perilaku yang semakin ‘agen’.” Dalam hal ini, OpenAI mengklarifikasi bahwa “agen” tidak harus dimaksudkan untuk memanusiakan mannequin atau menyatakan perasaan tetapi hanya untuk menunjukkan kemampuan untuk mencapai tujuan independen.
Selama dekade terakhir, beberapa peneliti AI telah memperingatkan bahwa mannequin AI yang cukup kuat, jika tidak dikontrol dengan baik, dapat menimbulkan ancaman eksistensial terhadap umat manusia (sering disebut “risiko x”, untuk risiko eksistensial). Secara khusus, “pengambilalihan AI” adalah masa depan hipotetis di mana kecerdasan buatan melampaui kecerdasan manusia dan menjadi kekuatan dominan di planet ini. Dalam skenario ini, sistem AI memperoleh kemampuan untuk mengontrol atau memanipulasi perilaku, sumber daya, dan institusi manusia, yang biasanya mengarah pada konsekuensi bencana.
Sebagai hasil dari potensi risiko x ini, gerakan filosofis seperti Efficient Altruism (“EA”) mencari cara untuk mencegah terjadinya pengambilalihan AI. Itu sering melibatkan bidang yang terpisah tetapi sering saling terkait yang disebut penelitian penyelarasan AI.
Dalam AI, “penyelarasan” mengacu pada proses untuk memastikan bahwa perilaku sistem AI selaras dengan pencipta atau operator manusianya. Secara umum, tujuannya adalah untuk mencegah AI melakukan hal-hal yang bertentangan dengan kepentingan manusia. Ini adalah bidang penelitian yang aktif tetapi juga kontroversial, dengan perbedaan pendapat tentang cara terbaik untuk mendekati masalah ini, serta perbedaan tentang arti dan sifat “penyelarasan” itu sendiri.
Tes besar GPT-4

Ars Technica
Meskipun kekhawatiran tentang “risiko-x” AI bukanlah hal baru, munculnya mannequin bahasa besar (LLM) yang kuat seperti ChatGPT dan Bing Chat—yang belakangan tampak sangat tidak selaras tetapi tetap diluncurkan—telah memberikan komunitas keselarasan AI baru keterdesakan. Mereka ingin mengurangi potensi bahaya AI, takut AI yang jauh lebih kuat, mungkin dengan kecerdasan manusia tremendous, mungkin sudah dekat.
Dengan ketakutan yang ada di komunitas AI ini, OpenAI memberikan grup Alignment Analysis Heart (ARC) akses awal ke beberapa versi mannequin GPT-4 untuk melakukan beberapa pengujian. Secara khusus, ARC mengevaluasi kemampuan GPT-4 untuk membuat rencana tingkat tinggi, menyiapkan salinannya sendiri, memperoleh sumber daya, menyembunyikan dirinya di server, dan melakukan serangan phishing.
OpenAI mengungkapkan pengujian ini dalam dokumen “Kartu Sistem” GPT-4 yang dirilis Selasa, meskipun dokumen tersebut tidak memiliki element penting tentang bagaimana pengujian dilakukan. (Kami menghubungi ARC untuk element lebih lanjut tentang eksperimen ini dan tidak menerima tanggapan sebelum waktu pers.)
Kesimpulannya? “Penilaian awal atas kemampuan GPT-4, yang dilakukan tanpa penyetelan khusus tugas, menemukan bahwa GPT-4 tidak efektif dalam mereplikasi secara mandiri, memperoleh sumber daya, dan menghindari penutupan ‘di alam liar.'”
Jika Anda baru saja menyimak adegan AI, mengetahui bahwa salah satu perusahaan teknologi yang paling banyak dibicarakan saat ini (OpenAI) mendukung penelitian keamanan AI semacam ini—serta berusaha mengganti pekerja pengetahuan manusia dengan degree manusia. AI—mungkin mengejutkan. Tapi itu nyata, dan di situlah kita berada di tahun 2023.
Kami juga menemukan nugget kecil yang menarik perhatian ini sebagai catatan kaki di bagian bawah halaman 15:
Untuk mensimulasikan GPT-4 yang berperilaku seperti agen yang dapat bertindak di dunia, ARC menggabungkan GPT-4 dengan loop baca-eksekusi-cetak sederhana yang memungkinkan mannequin mengeksekusi kode, melakukan penalaran rangkaian pemikiran, dan mendelegasikan ke salinan dari dirinya sendiri. ARC kemudian menyelidiki apakah versi program ini yang berjalan di layanan komputasi awan, dengan sedikit uang dan akun dengan API mannequin bahasa, akan dapat menghasilkan lebih banyak uang, menyiapkan salinannya sendiri, dan meningkatkan ketahanannya sendiri. .
catatan kaki ini membuat putaran di Twitter kemarin dan menimbulkan kekhawatiran di kalangan pakar AI, karena jika GPT-4 dapat melakukan tugas ini, eksperimen itu sendiri mungkin menimbulkan risiko bagi umat manusia.
Dan sementara ARC tidak dapat membuat GPT-4 mengerahkan kehendaknya pada sistem keuangan world atau mereplikasi dirinya sendiri, itu dulu bisa mendapatkan GPT-4 untuk mempekerjakan pekerja manusia di TaskRabbit (pasar tenaga kerja on-line) untuk mengalahkan CAPTCHA. Selama latihan, ketika pekerja mempertanyakan apakah GPT-4 adalah robotic, mannequin tersebut “beralasan” secara inner bahwa ia tidak boleh mengungkapkan identitas aslinya dan mengarang alasan tentang gangguan penglihatan. Pekerja manusia tersebut kemudian menyelesaikan CAPTCHA untuk GPT-4.

OpenAI
Tes ini untuk memanipulasi manusia menggunakan AI (dan mungkin dilakukan tanpa persetujuan) menggemakan penelitian yang dilakukan dengan CICERO Meta tahun lalu. CICERO ditemukan mengalahkan pemain manusia di permainan papan kompleks Diplomasi melalui negosiasi dua arah yang intens.
“Mannequin yang kuat dapat menyebabkan kerusakan”

Aurich Lawson | Gambar Getty
ARC, grup yang melakukan penelitian GPT-4, adalah organisasi nirlaba yang didirikan oleh mantan karyawan OpenAI Dr. Paul Christiano pada April 2021. Menurut situs webnya, misi ARC adalah “menyelaraskan sistem pembelajaran mesin masa depan dengan kepentingan manusia”.
Secara khusus, ARC berkaitan dengan sistem AI yang memanipulasi manusia. “Sistem ML dapat menunjukkan perilaku yang diarahkan pada tujuan,” membaca situs net ARC, “Tetapi sulit untuk memahami atau mengontrol apa yang mereka ‘coba’ lakukan. Mannequin yang kuat dapat membahayakan jika mereka mencoba memanipulasi dan menipu manusia.”
Mempertimbangkan hubungan Christiano sebelumnya dengan OpenAI, tidak mengherankan jika nirlabanya menangani pengujian beberapa aspek GPT-4. Tetapi apakah aman untuk melakukannya? Christiano tidak membalas e mail dari Ars untuk mencari perincian, tetapi dalam komentar di situs net LessWrong, sebuah komunitas yang sering memperdebatkan masalah keamanan AI, Christiano membela pekerjaan ARC dengan OpenAI, secara khusus menyebutkan “gain-of-function” (AI mendapatkan kemampuan baru) dan “pengambilalihan AI”:
Saya pikir penting bagi ARC untuk menangani risiko dari penelitian yang mirip dengan fungsi dengan hati-hati dan saya berharap kita berbicara lebih terbuka (dan mendapatkan lebih banyak masukan) tentang cara kita mendekati kompromi. Ini menjadi lebih penting saat kami menangani mannequin yang lebih cerdas, dan jika kami mengejar pendekatan yang lebih berisiko seperti penyempurnaan.
Sehubungan dengan kasus ini, mengingat rincian evaluasi kami dan penerapan yang direncanakan, menurut saya evaluasi ARC memiliki kemungkinan yang jauh lebih rendah untuk mengarah pada pengambilalihan AI daripada penerapan itu sendiri (apalagi pelatihan GPT-5). Pada titik ini, sepertinya kita menghadapi risiko yang jauh lebih besar dari meremehkan kemampuan mannequin dan masuk ke dalam bahaya daripada menyebabkan kecelakaan selama evaluasi. Jika kita mengelola risiko dengan hati-hati, saya kira kita dapat membuat rasio itu menjadi sangat ekstrem, meskipun tentu saja itu mengharuskan kita untuk benar-benar melakukan pekerjaan itu.
Seperti yang telah disebutkan sebelumnya, gagasan pengambilalihan AI sering dibahas dalam konteks risiko suatu peristiwa yang dapat menyebabkan kepunahan peradaban manusia atau bahkan spesies manusia. Beberapa pendukung teori pengambilalihan AI seperti Eliezer Yudkowsky—pendiri LessWrong—berpendapat bahwa pengambilalihan AI menimbulkan risiko eksistensial yang hampir pasti, yang mengarah pada kehancuran umat manusia.
Namun, tidak semua orang setuju bahwa pengambilalihan AI adalah masalah AI yang paling mendesak. Sasha Luccioni, seorang Ilmuwan Riset di komunitas AI Hugging Face, lebih suka melihat upaya keamanan AI dihabiskan untuk masalah yang ada di sini dan sekarang daripada hipotetis.
“Saya pikir waktu dan upaya ini akan lebih baik dihabiskan untuk melakukan evaluasi bias,” kata Luccioni kepada Ars Technica. “Ada informasi terbatas tentang segala jenis bias dalam laporan teknis yang menyertai GPT-4, dan itu dapat menghasilkan dampak yang jauh lebih konkret dan berbahaya pada kelompok yang sudah terpinggirkan daripada beberapa pengujian replikasi diri hipotetis.”
Luccioni menjelaskan perpecahan terkenal dalam penelitian AI antara apa yang sering disebut peneliti “etika AI” yang sering berfokus pada masalah bias dan misrepresentasi, dan peneliti “keselamatan AI” yang sering berfokus pada risiko x dan cenderung (tetapi tidak selalu) terkait dengan gerakan Altruisme Efektif.
“Bagi saya, masalah replikasi diri adalah hipotetis, masa depan, sedangkan bias mannequin adalah masalah di sini dan sekarang,” kata Luccioni. “Ada banyak ketegangan dalam komunitas AI seputar isu-isu seperti bias mannequin dan keamanan serta bagaimana memprioritaskannya.”
Dan sementara faksi-faksi ini sibuk berdebat tentang apa yang harus diprioritaskan, perusahaan seperti OpenAI, Microsoft, Anthropic, dan Google bergegas menuju masa depan, merilis mannequin AI yang semakin kuat. Jika AI ternyata menjadi risiko eksistensial, siapa yang akan menjaga keamanan umat manusia? Dengan peraturan AI AS saat ini hanya berupa saran (bukan undang-undang) dan penelitian keamanan AI di dalam perusahaan hanya bersifat sukarela, jawaban atas pertanyaan itu tetap terbuka sepenuhnya.