Perkembangan pesat dalam teknologi kecerdasan buatan (AI) membuat perusahaan-perusahaan teknologi menghadapi tantangan baru: kehabisan data berkualitas tinggi untuk melatih model mereka.
Elon Musk, miliarder sekaligus pendiri perusahaan AI xAI, mengungkapkan bahwa dunia saat ini telah “kehabisan” data pengetahuan manusia yang tersedia di internet.
Data Sintetis Menjadi Solusi Utama
Karena keterbatasan tersebut, Musk memperkirakan bahwa penggunaan data sintetis akan menjadi solusi utama dalam melatih model AI generasi mendatang.
Data sintetis adalah data buatan sistem AI sendiri untuk memperkaya informasi dalam proses pembelajaran mesin.
Menurut Musk, dengan semakin terbatasnya data asli, satu-satunya cara melanjutkan pelatihan model AI adalah dengan menggunakan data sintetis.
Ia menjelaskan bahwa data ini akan berfungsi dengan membuat esai, menyusun tesis, hingga mengevaluasi dan menilai hasilnya sendiri dalam proses pembelajaran mandiri.
Pernyataan ini terungkap dalam siaran langsung Elon Musk di platform media sosial X (sebelumnya Twitter).
Perusahaan Teknologi Sudah Menggunakan Data Sintetis
Penggunaan data sintetis sebenarnya bukan hal baru di dunia teknologi AI.
Perusahaan seperti Meta, yang memiliki Facebook dan Instagram, sudah menggunakannya untuk melatih model AI mereka, Llama.
Hal serupa terjadi di perusahaan Google dan OpenAI dalam mengembangkan model AI canggih, termasuk ChatGPT dengan model GPT-4o.
Microsoft juga menerapkan metode serupa dalam model AI mereka, Phi-4.
Risiko dan Kekhawatiran atas Data Sintetis
Meski menjanjikan, penggunaan data sintetis bukan tanpa risiko.
Salah satu tantangan utama adalah fenomena hallucination atau “halusinasi AI,” di mana model menghasilkan informasi yang salah atau menyesatkan.
Musk dan beberapa ahli lainnya mengungkapkan kekhawatiran bahwa data sintetis dapat memperparah masalah ini.
Dalam siaran langsung bersama Mark Penn, ketua grup periklanan Stagwell, Musk menyebut fenomena ini sebagai tantangan besar.
“Bagaimana kita bisa tahu apakah informasi yang dihasilkan itu benar atau hanya halusinasi?” ujarnya.
Prediksi Kehabisan Data Publik pada 2026
Komentar Musk muncul seiring dengan temuan terbaru dari dunia akademis.
Sebuah makalah yang dikutip Andrew Duncan, Direktur AI di Alan Turing Institute, memperkirakan bahwa data publik yang tersedia untuk melatih model AI dapat habis paling cepat pada tahun 2026.
Duncan memperingatkan bahwa ketergantungan berlebihan pada data sintetis dapat menyebabkan “keruntuhan model,” di mana kualitas keluaran AI menurun secara signifikan seiring waktu.
Jika data sintetis mendominasi, chatbot AI di masa depan berisiko menghasilkan jawaban yang bias, tidak akurat, dan kurang kreatif.
Selain itu, peningkatan jumlah konten yang dihasilkan AI di internet justru memperparah masalah ini, karena model AI cenderung menyerap dan mereplikasi informasi yang salah tersebut dalam pelatihan mereka.
Kemajuan teknologi AI terus menghadirkan tantangan baru dalam ketersediaan data berkualitas untuk melatih model-model canggih.
Meski data sintetis menawarkan solusi praktis, risiko yang menyertainya perlu diatasi dengan cermat agar tidak merusak kualitas dan akurasi sistem AI di masa depan.
Elon Musk dan para pakar teknologi lainnya menyoroti perlunya pendekatan yang hati-hati dalam mengadopsi data sintetis guna memastikan masa depan kecerdasan buatan yang lebih andal dan bermanfaat bagi semua.