Apa Itu LMArena AI dan Apa Saja Fungsinya
LMArena AI dikembangkan oleh tim peneliti dari UC Berkeley. LMArena AI adalah platform berbasis AI yang bersifat terbuka, yang memungkinkan siapa saja untuk membandingkan respon dari beragam model AI berbeda. Pengguna dapat melihat dua jawaban dari model berbeda, lalu memilih respon dari AI mana yang lebih bagus. Kontribusi dari pengguna ini kemudian dianalisis dan ditampilkan ke dalam peringkat terbuka, sehingga perkembangan AI menjadi lebih jelas, transparan, dan berdasarkan penggunaan nyata. Dapat dikatakan, LM Arena AI adalah AI yang membantu penggunanya untuk melihat daftar AI generatif yang banyak digunakan oleh pengguna AI dari seluruh dunia.

Kredit Gambar: lmarena.ai
Bagaimana LMArena AI Menentukan Peringkat Model AI?
LMArena AI ingin memastikan bahwa peringkat model AI tidak hanya akurat, tetapi juga diproses secara adil dan mudah dipahami. Karena itu, mereka tidak hanya melihat skor mentah saja, tetapi juga berdasarkan perhitungan statistik, yakni dengan mempertimbangkan kemiripan dari model-model AI yang ada. Untuk mencapai hal itu, LM Arena AI (lmarena.ai) menggunakan dua metode utama, raw rank (pemeringkatan mentah), dan rank spread (rentang peringkat).

Kredit Gambar: LMArena AI (lmarena.ai)
1. Raw Rank (Peringkat Mentah)
Ini adalah peringkat dasar yang diberikan murni berdasarkan skor Arena masing-masing model. Semakin tinggi skor Arena, semakin tinggi posisi model. Tidak ada peringkat yang sama—setiap model diberikan nomor urut unik. Leaderboard disusun berdasarkan raw rank ini. Raw rank berguna agar pengguna bisa langsung melihat “urutan umum” dari model-model yang dibandingkan.
2. Rank Spread (Rentang Peringkat)
Selain menggunakan pemeringkatan mentah, atau raw rank, LMArena juga menampilkan rentang posisi yang mungkin untuk setiap model berdasarkan analisis statistik. Metode ini dilakukan karena dalam banyak kasus, dua atau lebih model AI mungkin saja memiliki skor yang sangat mirip sehingga tidak bisa dipastikan model AI mana yang benar-benar lebih unggul secara nyata. Rentang peringkat ini menunjukkan area di mana posisi model sebenarnya bisa berada jika mempertimbangkan ketidakpastian data. Contoh sederhananya, Model A mungkin memiliki raw rank 3, tetapi rank spread-nya menunjukkan bahwa secara statistik ia bisa saja berada diantara peringkat 2–5. Penerapan metode ini, menurut LMArena AI, membuat metode peperingkatan menjadi lebih transparan dan mencerminkan realitas secara lebih objetif tentang perbedaan kinerja model-mdel AI yang dianalisis.