Senin, Februari 2, 2026

Google Gemini 2.0 Flash: AI Canggih untuk Edit Foto dengan Perintah Teks

Perkembangan teknologi kecerdasan buatan (AI) semakin mengubah cara kita berinteraksi dengan dunia digital, dan kini Google membawa inovasi terbaru dalam bidang pengolahan gambar.

Sebuah model AI eksperimental terbaru memungkinkan pengguna mengedit foto hanya dengan memberikan perintah dalam percakapan, bahkan dapat menghapus watermark pada gambar.

Walaupun hasilnya belum sempurna, teknologi ini menandai awal dari era baru dalam manipulasi gambar yang lebih mudah diakses oleh semua orang.

AI Baru dengan Kemampuan Mengedit Gambar Secara Langsung

Pada Rabu lalu, Google memperluas akses ke fitur generasi gambar dari Gemini 2.0 Flash, menjadikannya tersedia untuk pengguna di Google AI Studio.

Sebelumnya, teknologi ini hanya dapat diakses oleh penguji terbatas sejak Desember.

Model multimodal ini menggabungkan pemrosesan teks dan gambar dalam satu sistem, memungkinkan AI untuk menghasilkan atau mengedit gambar secara langsung dalam percakapan.

Model ini diberi nama “Gemini 2.0 Flash (Image Generation) Experimental”, dan meskipun sempat luput dari perhatian saat pertama kali dirilis, kini ia mulai menarik perhatian lebih luas karena kemampuannya menghapus watermark pada gambar.

Namun, fitur ini masih memiliki keterbatasan, seperti munculnya artefak atau penurunan kualitas gambar setelah watermark dihapus.

Tetapi bukan hanya itu keunggulannya—Gemini 2.0 Flash juga mampu menambahkan objek ke dalam gambar, menghapus elemen yang tidak diinginkan.

Mengubah pencahayaan, memperbesar atau memperkecil gambar, hingga mencoba mengubah sudut pandang gambar dengan berbagai tingkat keberhasilan tergantung pada kompleksitas objek dan gaya visualnya.

Bagaimana AI Ini Bekerja?

Google melatih Gemini 2.0 Flash menggunakan kumpulan data besar yang terdiri dari gambar yang telah dikonversi menjadi token serta teks.

Model ini mengintegrasikan “pengetahuan” tentang dunia dalam bentuk teks dan visual dalam satu jaringan saraf yang sama.

Hal ini memungkinkan AI untuk langsung menghasilkan token gambar yang kemudian dikonversi kembali menjadi gambar yang dapat dilihat oleh pengguna.

Dengan kata lain, AI ini tidak hanya memahami konsep visual berdasarkan deskripsi teks tetapi juga mampu “membayangkan” hasil gambar berdasarkan konteks yang diberikan dalam percakapan.

Sebagai contoh, jika pengguna meminta AI untuk menambahkan “seorang barbar yang sedang bermain ski air” ke dalam sebuah foto, Gemini 2.0 Flash akan mencoba merealisasikan permintaan tersebut berdasarkan pemahamannya terhadap konsep tersebut.

Apakah Photoshop Akan Tergantikan?

Meskipun teknologi pengeditan gambar berbasis AI bukan hal baru—OpenAI telah mengintegrasikan DALL-E 3 ke dalam ChatGPT sejak September lalu—pendekatan Google berbeda.

Sebagian besar asisten AI lainnya menggunakan model berbasis diffusion, di mana pembuatan gambar terjadi di luar sistem chatbot dan kemudian dikirimkan kembali ke pengguna.

Sementara itu, Gemini 2.0 Flash adalah model AI yang menggabungkan pemrosesan bahasa dan gambar dalam satu sistem, sehingga proses manipulasi gambar terasa lebih alami dalam interaksi percakapan.

Menariknya, OpenAI juga mengembangkan AI serupa, GPT-4o, yang memiliki kemampuan menghasilkan gambar secara native, tetapi fitur ini masih belum dirilis secara luas.

Salah satu alasannya adalah tantangan komputasi yang besar—model multimodal semacam ini membutuhkan daya komputasi yang tinggi.

Karena setiap elemen gambar dikodekan menjadi token yang harus diproses ulang setiap kali ada perubahan atau tambahan perintah dari pengguna.

Selain itu, ada juga alasan terkait keamanan. AI multimodal yang sangat canggih dapat dengan mudah menghasilkan manipulasi media yang tampak realistis.

Seperti deepfake yang lebih sulit dideteksi. Dengan dataset pelatihan yang cukup, model seperti ini bisa digunakan untuk membuat gambar yang sangat persuasif dan berpotensi menyesatkan.

Seberapa Baik Gemini 2.0 Flash dalam Mengedit Gambar?

Untuk menguji kemampuan Gemini 2.0 Flash, beberapa pengujian dilakukan dengan berbagai jenis manipulasi gambar:

  • Menghapus objek: AI berhasil menghilangkan objek seperti kelinci dari halaman rumput dan ayam dari garasi berantakan. Latar belakang yang tertinggal diisi ulang oleh AI berdasarkan perkiraan terbaiknya.
  • Menambahkan objek sintetis: Eksperimen dilakukan dengan menambahkan UFO ke dalam foto yang diambil dari jendela pesawat, serta menambahkan Sasquatch dan hantu ke dalam gambar. Hasilnya bervariasi—beberapa tampak meyakinkan, sementara yang lain masih tampak seperti hasil sintetis.
  • Membuat perubahan perspektif: AI dapat memperbesar sudut pandang gambar dan bahkan menciptakan “sudut lain” dari gambar yang sama, sesuatu yang sebelumnya sulit dilakukan tanpa teknik pemodelan 3D yang canggih.
  • Menambahkan elemen fantasi: Sebuah eksperimen juga dilakukan dengan menempatkan karakter game di layar komputer retro Atari 800. Menariknya, AI dapat menghasilkan efek scanline CRT yang cukup realistis untuk menyatu dengan estetika layar aslinya.

Hasilnya memang belum sepenuhnya sempurna, tetapi yang menarik adalah bahwa semua ini dilakukan tanpa menggunakan alat pengeditan konvensional—cukup dengan memberikan perintah teks kepada AI.

Menuju Era Manipulasi Media yang Lebih Mudah

Kemampuan AI seperti Gemini 2.0 Flash membuka kemungkinan baru dalam dunia chatbot dan pengeditan gambar interaktif.

Teknologi ini memungkinkan AI untuk tidak hanya merespons teks tetapi juga menghasilkan gambar secara konsisten dalam suatu narasi atau alur cerita.

Misalnya, AI dapat menciptakan serangkaian gambar yang mempertahankan karakter dan latar belakang yang sama dari satu gambar ke gambar lainnya, sesuatu yang sebelumnya sulit dicapai dengan AI berbasis generatif lainnya.

Selain itu, AI ini juga memiliki kemampuan rendering teks dalam gambar, menjadikannya berguna untuk menciptakan konten visual seperti poster, infografik, atau meme dengan teks terintegrasi secara alami.

Walaupun hasilnya belum sempurna, kemajuan ini menunjukkan bahwa AI semakin mendekati kemampuan generasi media yang lebih kompleks.

Masa Depan Editing Gambar Tanpa Batas?

Meskipun masih berada dalam tahap awal pengembangannya, kemunculan AI seperti Gemini 2.0 Flash menunjukkan, masa depan pengeditan gambar mungkin tidak lagi memerlukan keterampilan teknis yang mendalam.

Dalam beberapa tahun ke depan, kita bisa membayangkan AI yang lebih canggih mampu menghasilkan berbagai jenis media—teks, gambar, video, bahkan objek 3D—dengan tingkat realisme yang lebih tinggi.

Namun, tantangan besar tetap ada, termasuk aspek keamanan, etika, dan dampak sosial dari teknologi ini.

Jika AI dapat dengan mudah menciptakan atau mengubah realitas visual, bagaimana kita dapat memastikan bahwa informasi yang kita konsumsi tetap akurat dan dapat dipercaya?

Bagaimanapun, dengan perkembangan yang terus terjadi, satu hal yang pasti: dunia pengeditan gambar dan penciptaan konten visual sedang mengalami perubahan revolusioner yang akan berdampak luas di masa depan.

5 Tips Menghentikan Kebiasaan Scrolling Media Sosial Agar Tidak Lupa Waktu

Menghentikan kebiasaan scrolling. Media sosial sudah menjadi bagian yang tidak terelakkan dari kehidupan, terutama di kalangan remaja hingga dewasa. Sebagai bentuk kemajuan teknologi, media...

Pentingnya Koding untuk Anak di Era Digital, Bekal Masa Depan yang Tak Bisa Diabaikan

Di tengah pesatnya perkembangan teknologi, kesadaran orang tua dan sekolah untuk memahami pentingnya koding untuk anak semakin meningkat. Keterampilan yang dulu dianggap eksklusif bagi...

5 Aplikasi Penunjang untuk Membuat Video Animasi yang Mudah digunakan dan Cocok untuk Pemula

Video animasi adalah salah satu media komunikasi visual yang banyak disukai, terutama oleh anak-anak karena tampilannya yang cenderung menarik dan penuh kreativitas. Melalui video...

5 Rekomendasi Laptop untuk Mahasiswa dengan Harga Terjangkau 

Rekomendasi Laptop untuk mahasiswa. Laptop menjadi salah satu benda paling dibutuhkan untuk menunjang kuliah. Hampir semua tugas kuliah dikerjakan menggunakan alat elektronik yang satu...

Terbaru