Meta meluncurkan mannequin bahasa besar baru yang dapat berjalan di satu GPU

Benj Edwards / Ars Technica
Pada hari Jumat, Meta mengumumkan mannequin bahasa besar (LLM) bertenaga AI baru yang disebut LLaMA-13B yang diklaim dapat mengungguli mannequin GPT-3 OpenAI meskipun “10x lebih kecil”. Mannequin AI berukuran lebih kecil dapat menjalankan asisten bahasa gaya ChatGPT secara lokal di perangkat seperti PC dan smartphone. Itu adalah bagian dari keluarga mannequin bahasa baru yang disebut “Giant Language Mannequin Meta AI,” atau disingkat LLAMA.
Kumpulan mannequin bahasa LLaMA berkisar dari 7 miliar hingga 65 miliar parameter dalam ukuran. Sebagai perbandingan, mannequin GPT-3 OpenAI—mannequin dasar di balik ChatGPT—memiliki 175 miliar parameter.
Meta melatih mannequin LLaMA-nya menggunakan kumpulan information yang tersedia untuk umum, seperti Frequent Crawl, Wikipedia, dan C4, yang berarti perusahaan berpotensi merilis mannequin dan bobot open supply. Itu adalah perkembangan baru yang dramatis dalam industri di mana, hingga saat ini, para pemain Teknologi Besar dalam perlombaan AI telah menyimpan teknologi AI mereka yang paling kuat untuk diri mereka sendiri.
“Tidak seperti Chinchilla, PaLM, atau GPT-3, kami hanya menggunakan kumpulan information yang tersedia untuk umum, membuat pekerjaan kami kompatibel dengan sumber terbuka dan dapat direproduksi, sementara sebagian besar mannequin yang ada bergantung pada information yang tidak tersedia untuk umum atau tidak terdokumentasikan,” tweeted anggota proyek Guillaume Lample.
Hari ini kami merilis LLaMA, 4 mannequin pondasi mulai dari parameter 7B hingga 65B.
LLaMA-13B mengungguli OPT dan GPT-3 175B pada sebagian besar tolok ukur. LLaMA-65B bersaing dengan Chinchilla 70B dan PaLM 540B.
Bobot untuk semua mannequin terbuka dan tersedia di https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq— Guillaume Lample (@GuillaumeLample) 24 Februari 2023
Meta menyebut mannequin LLaMA-nya “mannequin dasar”, yang berarti perusahaan bermaksud mannequin tersebut untuk membentuk dasar mannequin AI masa depan yang lebih halus yang dibangun dari teknologi, mirip dengan bagaimana OpenAI membangun ChatGPT dari dasar GPT-3. Perusahaan berharap bahwa LLaMA akan berguna dalam penelitian bahasa alami dan aplikasi potensial seperti “penjawaban pertanyaan, pemahaman bahasa alami atau pemahaman bacaan, kemampuan pemahaman dan keterbatasan mannequin bahasa saat ini.”
Sementara mannequin LLaMA top-of-the-line (LLaMA-65B, dengan 65 miliar parameter) saling bersaing dengan penawaran serupa dari laboratorium AI pesaing DeepMind, Google, dan OpenAI, bisa dibilang pengembangan paling menarik berasal dari LLaMA Mannequin -13B, yang, seperti disebutkan sebelumnya, dilaporkan dapat mengungguli GPT-3 saat berjalan pada satu GPU. Berbeda dengan persyaratan pusat information untuk turunan GPT-3, LLaMA-13B membuka pintu untuk kinerja seperti ChatGPT pada perangkat keras tingkat konsumen dalam waktu dekat.
Ukuran parameter adalah masalah besar dalam AI. Parameter adalah variabel yang digunakan mannequin pembelajaran mesin untuk membuat prediksi atau klasifikasi berdasarkan information masukan. Jumlah parameter dalam mannequin bahasa merupakan faktor kunci dalam performanya, dengan mannequin yang lebih besar umumnya mampu menangani tugas yang lebih kompleks dan menghasilkan keluaran yang lebih koheren. Namun, lebih banyak parameter membutuhkan lebih banyak ruang, dan membutuhkan lebih banyak sumber daya komputasi untuk dijalankan. Jadi, jika sebuah mannequin dapat mencapai hasil yang sama dengan mannequin lain dengan parameter yang lebih sedikit, ini menunjukkan peningkatan efisiensi yang signifikan.
“Saya sekarang berpikir bahwa kita akan menjalankan mannequin bahasa dengan porsi yang cukup besar dari kemampuan ChatGPT pada ponsel dan laptop computer kita sendiri (di atas jangkauan) dalam satu atau dua tahun,” tulis peneliti AI independen Simon Willison dalam sebuah Utas Mastodon menganalisis dampak mannequin AI baru Meta.
Saat ini, versi LLaMA yang dipreteli tersedia di GitHub. Untuk menerima kode dan bobot lengkap (information pelatihan “yang dipelajari” dalam jaringan saraf), Meta menyediakan formulir di mana peneliti yang tertarik dapat meminta akses. Meta belum mengumumkan rencana untuk rilis mannequin dan bobot yang lebih luas saat ini.