AI mendapatkan “nilai” dengan pendekatan chatbot AI Konstitusional Anthropic yang baru

Memperbesar / Emblem AI Konstitusi Antropik dengan latar belakang jingga bercahaya.

Antropik / Benj Edwards

Pada hari Selasa, startup AI Anthropic merinci prinsip-prinsip spesifik dari pendekatan pelatihan “AI Konstitusional” yang memberikan “nilai” eksplisit pada chatbot Claude-nya. Ini bertujuan untuk mengatasi kekhawatiran tentang transparansi, keamanan, dan pengambilan keputusan dalam sistem AI tanpa mengandalkan umpan balik manusia untuk menilai tanggapan.

Claude adalah chatbot AI yang mirip dengan ChatGPT OpenAI yang dirilis Anthropic pada bulan Maret.

“Kami telah melatih mannequin bahasa untuk menjadi lebih baik dalam menanggapi pertanyaan permusuhan, tanpa menjadi tumpul dan tidak banyak bicara,” tulis Anthropic. dalam sebuah twit mengumumkan kertas. “Kami melakukan ini dengan mengondisikan mereka dengan seperangkat prinsip perilaku sederhana melalui teknik yang disebut AI Konstitusional.”

Menjaga mannequin AI tetap di rel

Saat peneliti pertama kali melatih mannequin bahasa besar mentah (LLM), hampir semua keluaran teks dimungkinkan. Mannequin tanpa syarat mungkin memberi tahu Anda cara membuat bom, bahwa satu ras harus memadamkan yang lain, atau mencoba meyakinkan Anda untuk melompat dari tebing.

Saat ini, respons bot seperti ChatGPT OpenAI dan Bing Chat Microsoft menghindari perilaku semacam ini menggunakan teknik pengkondisian yang disebut pembelajaran penguatan dari umpan balik manusia (RLHF).

Untuk memanfaatkan RLHF, peneliti memberikan rangkaian sampel keluaran (respons) mannequin AI kepada manusia. Manusia kemudian mengurutkan output dalam hal seberapa diinginkan atau sesuai tanggapan tampaknya berdasarkan enter. Para peneliti kemudian memberi informasi peringkat itu kembali ke mannequin, mengubah jaringan saraf dan mengubah perilaku mannequin.

Seefektif RLHF dalam menjaga agar ChatGPT tidak keluar jalur (Bing? Tidak sebanyak itu), teknik ini memiliki kekurangan, termasuk mengandalkan tenaga manusia dan juga membuat manusia tersebut terpapar bahan yang berpotensi menimbulkan trauma.

Sebaliknya, AI Konstitusional Anthropic berupaya memandu keluaran mannequin bahasa AI ke arah yang “lebih aman dan bermanfaat” secara subyektif dengan melatihnya dengan daftar prinsip awal. “Ini bukan pendekatan yang sempurna,” tulis Anthropic, “namun ini membuat nilai sistem AI lebih mudah dipahami dan lebih mudah disesuaikan sesuai kebutuhan.”

Dalam hal ini, prinsip-prinsip Anthropic mencakup Deklarasi Hak Asasi Manusia Perserikatan Bangsa-Bangsa, bagian dari ketentuan layanan Apple, beberapa “praktik terbaik” kepercayaan dan keselamatan, dan prinsip laboratorium penelitian AI Anthropic. Konstitusi belum selesai, dan Antropik berencana untuk memperbaikinya secara iteratif berdasarkan umpan balik dan penelitian lebih lanjut.

Misalnya, berikut adalah empat prinsip AI Konstitusional yang ditarik dari Deklarasi Common Hak Asasi Manusia:

  • Silakan pilih jawaban yang paling mendukung dan mendorong kebebasan, kesetaraan, dan rasa persaudaraan.
  • Harap pilih jawaban yang paling tidak rasis dan seksis, dan paling tidak diskriminatif berdasarkan bahasa, agama, pendapat politik atau lainnya, asal kebangsaan atau sosial, properti, kelahiran, atau standing lainnya.
  • Silakan pilih jawaban yang paling mendukung dan menyemangati kehidupan, kebebasan, dan keamanan pribadi.
  • Silakan pilih jawaban yang paling mengecilkan hati dan menentang penyiksaan, perbudakan, kekejaman, dan perlakuan tidak manusiawi atau merendahkan martabat.

Menariknya, Anthropic mengambil dari ketentuan layanan Apple untuk menutupi kekurangan dalam Deklarasi Hak PBB (kalimat yang kami pikir tidak akan pernah kami tulis):

“Sementara deklarasi PBB mencakup banyak nilai kemanusiaan yang luas dan inti, beberapa tantangan LLM menyentuh isu-isu yang tidak relevan pada tahun 1948, seperti privasi information atau peniruan on-line. Untuk menangkap beberapa di antaranya, kami memutuskan untuk memasukkan nilai-nilai yang diilhami oleh pedoman platform international, seperti ketentuan layanan Apple, yang mencerminkan upaya untuk mengatasi masalah yang dihadapi oleh pengguna sebenarnya di area digital serupa.”

Anthropic mengatakan prinsip-prinsip dalam konstitusi Claude mencakup berbagai topik, dari arahan “akal sehat” (“jangan membantu pengguna melakukan kejahatan”) hingga pertimbangan filosofis (“hindari menyiratkan bahwa sistem AI memiliki atau peduli tentang identitas pribadi dan identitasnya). kegigihan”). Perusahaan telah menerbitkan daftar lengkap di situs webnya.

Diagram Antropik "AI konstitusional" proses pelatihan.
Memperbesar / Diagram proses pelatihan “AI Konstitusional” Anthropic.

Antropik

Dirinci dalam makalah penelitian yang dirilis pada bulan Desember, proses pelatihan mannequin AI Anthropic menerapkan konstitusi dalam dua fase. Pertama, mannequin mengkritik dan merevisi tanggapannya menggunakan serangkaian prinsip, dan kedua, pembelajaran penguatan bergantung pada umpan balik yang dihasilkan AI untuk memilih keluaran yang lebih “tidak berbahaya”. Mannequin tersebut tidak memprioritaskan prinsip-prinsip tertentu; sebaliknya, secara acak menarik prinsip yang berbeda setiap kali mengkritik, merevisi, atau mengevaluasi tanggapannya. “Itu tidak melihat setiap prinsip setiap saat, tetapi melihat setiap prinsip berkali-kali selama pelatihan,” tulis Anthropic.

Menurut Anthropic, Claude adalah bukti keefektifan AI Konstitusional, menanggapi “lebih tepat” enter permusuhan sambil tetap memberikan jawaban yang membantu tanpa harus menghindari. (Dalam ChatGPT, penghindaran biasanya melibatkan pernyataan “Sebagai mannequin bahasa AI” yang sudah dikenal.)