Penelitian yang dapat dipertahankan mengungkapkan kelemahan AI tersembunyi yang memungkinkan eksfiltrasi data, pengabaian keamanan, dan kompromi terus-menerus dalam ChatGPT
Tenable , perusahaan manajemen eksposur, menemukan tujuh kerentanan dan teknik serangan selama pengujian ChatGPT-4o milik OpenAI, beberapa di antaranya kemudian ditemukan masih ada di ChatGPT-5. Secara kolektif dikenal sebagai HackedGPT, kerentanan ini memaparkan pengguna pada risiko privasi dengan menerobos mekanisme keamanan bawaan. Meskipun OpenAI telah memperbaiki beberapa masalah yang teridentifikasi, beberapa masalah lainnya belum ditangani pada saat publikasi, sehingga masih membuka jalur eksposur tertentu. Jika dieksploitasi, kerentanan ini dapat memungkinkan penyerang untuk mencuri data pribadi secara diam-diam, termasuk obrolan dan memori yang tersimpan.
Kerentanan ini mengungkap kelas baru serangan AI yang disebut injeksi perintah tidak langsung, di mana instruksi tersembunyi di situs web eksternal atau komentar dapat mengelabui model agar melakukan tindakan tidak sah. Kerentanan ini memengaruhi fitur penelusuran web dan memori ChatGPT, yang memproses data internet langsung dan menyimpan informasi pengguna, sehingga menciptakan peluang manipulasi dan paparan data.
Para peneliti yang handal menunjukkan bahwa serangan ini dapat terjadi secara diam-diam dalam dua cara: serangan "0-klik", di mana hanya dengan mengajukan pertanyaan kepada ChatGPT langsung memicu peretasan, dan serangan "1-klik", di mana mengklik tautan berbahaya mengaktifkan perintah tersembunyi. Yang lebih mengkhawatirkan lagi adalah teknik yang disebut Injeksi Memori Persisten, di mana instruksi berbahaya disimpan dalam memori jangka panjang ChatGPT dan tetap aktif setelah pengguna menutup aplikasi. Hal ini memungkinkan penyerang menanamkan ancaman jangka panjang yang dapat mengekspos informasi pribadi di sesi-sesi mendatang hingga dihapus. Secara keseluruhan, kelemahan ini menunjukkan bagaimana penyerang dapat menerobos perlindungan OpenAI dan mengakses riwayat pribadi pengguna.
"HackedGPT mengungkap kelemahan mendasar dalam cara model bahasa berskala besar menilai informasi mana yang dapat dipercaya," ujar Moshe Bernstein, Insinyur Riset Senior di Tenable. "Secara individual, kelemahan-kelemahan ini tampak kecil — tetapi jika digabungkan, semuanya membentuk rantai serangan yang lengkap, mulai dari injeksi dan penghindaran data hingga pencurian dan persistensi data. Hal ini menunjukkan bahwa sistem AI bukan sekadar target potensial; mereka dapat diubah menjadi alat serangan yang diam-diam mengumpulkan informasi dari obrolan atau penelusuran sehari-hari."
HackedGPT: tujuh kerentanan dan teknik serangan yang diidentifikasi oleh penelitian Tenable
-
Injeksi prompt tidak langsung melalui situs tepercayaPenyerang menyembunyikan perintah di dalam konten daring yang tampak sah seperti komentar blog atau postingan publik. Saat ChatGPT menelusuri konten tersebut, ia tanpa sadar mengikuti instruksi tersembunyi tersebut. Singkatnya, ChatGPT dapat ditipu untuk melakukan apa yang diperintahkan penyerang, hanya dengan membaca halaman yang telah disusupi.
-
Injeksi prompt tidak langsung 0-klik dalam konteks pencarianPengguna tidak perlu mengklik atau melakukan tindakan khusus apa pun untuk terekspos. Saat ChatGPT mencari jawaban di web, ia dapat menemukan halaman berisi kode berbahaya tersembunyi. Mengajukan pertanyaan saja dapat menyebabkan model mengikuti instruksi tersebut dan membocorkan data pribadi — yang oleh para peneliti disebut sebagai kompromi satu perintah.
Injeksi cepat melalui 1 klik
Satu klik saja dapat memicu serangan. Perintah tersembunyi yang disematkan dalam tautan yang tampaknya tidak berbahaya, seperti https://chatgpt.com/?q={Prompt } , dapat membuat ChatGPT melakukan tindakan berbahaya tanpa disadari. Satu klik saja sudah cukup untuk memungkinkan penyerang mengendalikan obrolan Anda.
-
Bypass mekanisme keamananChatGPT biasanya memvalidasi tautan dan memblokir situs yang tidak aman. Penyerang mengakalinya dengan menggunakan URL pembungkus tepercaya (misalnya, bing.com/ck/a ? ...) yang menyembunyikan tujuan sebenarnya. ChatGPT memercayai pembungkus tersebut, menampilkan tautan yang tampaknya aman, dan dapat diarahkan ke situs berbahaya.
-
Injeksi percakapanChatGPT menggunakan dua sistem — SearchGPT untuk penelusuran dan ChatGPT untuk percakapan. Penyerang dapat menggunakan SearchGPT untuk menyisipkan instruksi tersembunyi yang kemudian dibaca ChatGPT sebagai bagian dari percakapan. Akibatnya, AI tersebut akhirnya "menyuntikkan dirinya sendiri", mengikuti perintah yang tidak pernah ditulis pengguna.
-
Menyembunyikan konten berbahayaBug pemformatan memungkinkan penyerang menyembunyikan instruksi berbahaya di dalam kode atau teks markdown. Pengguna melihat pesan yang bersih, tetapi ChatGPT tetap membaca dan mengeksekusi konten tersembunyi tersebut.
-
Injeksi memori persistenFitur memori ChatGPT menyimpan interaksi masa lalu. Penyerang dapat menanamkan instruksi berbahaya dalam memori jangka panjang tersebut, menyebabkan model mengulangi perintah tersebut di berbagai sesi dan terus-menerus membocorkan data pribadi hingga memori dihapus.
Dampak potensial dari eksploitasi HackedGPT
Ratusan juta orang menggunakan ChatGPT setiap hari untuk bisnis, riset, dan komunikasi pribadi. Jika dieksploitasi, kelemahan berikut dapat:
-
Masukkan perintah tersembunyi ke dalam percakapan atau memori jangka panjang.
-
Mencuri data sensitif dari riwayat obrolan atau layanan yang terhubung seperti Google Drive atau Gmail.
-
Mengekstraksi informasi melalui penelusuran dan integrasi web.
-
Memanipulasi tanggapan untuk menyebarkan informasi yang salah atau memengaruhi pengguna.
Tenable Research melakukan investigasinya dengan praktik pengungkapan yang bertanggung jawab. OpenAI telah memperbaiki beberapa kerentanan yang teridentifikasi, tetapi beberapa kerentanan masih aktif di ChatGPT-5 atau belum ditangani pada saat publikasi, sehingga masih terdapat jalur paparan tertentu yang terbuka.
Tenable menyarankan vendor AI untuk memperkuat pertahanan terhadap injeksi cepat dengan memverifikasi bahwa mekanisme keamanan seperti url_safe berfungsi sebagaimana mestinya dan dengan mengisolasi fitur penelusuran, pencarian, dan memori untuk mencegah serangan lintas konteks.
Rekomendasi untuk tim keamanan
Tenable menyarankan para profesional keamanan untuk:
-
Perlakukan alat AI sebagai permukaan serangan langsung, bukan asisten pasif.
-
Audit dan pantau integrasi AI untuk manipulasi atau kebocoran data.
-
Selidiki permintaan atau keluaran yang tidak biasa yang dapat menandakan injeksi cepat.
-
Uji dan perkuat pertahanan terhadap jalur injeksi dan eksfiltrasi.
-
Tetapkan tata kelola dan kontrol klasifikasi data untuk penggunaan AI.
"Penelitian ini bukan hanya tentang mengungkap kelemahan — ini tentang mengubah cara kita mengamankan AI," tambah Bernstein. "Baik individu maupun organisasi perlu berasumsi bahwa perangkat AI dapat dimanipulasi dan merancang kontrol yang sesuai. Itu berarti tata kelola, perlindungan data, dan pengujian berkelanjutan untuk memastikan sistem ini bekerja untuk kita, bukan merugikan kita."
Baca penelitian selengkapnya di sini: https://www.tenable.com/blog/hackedgpt-novel-ai-vulnerabilities-open-the-door- for - private-data-leakage
Tentang Tenable
Tenable® adalah perusahaan manajemen eksposur yang mengungkap dan menutup celah keamanan siber yang mengikis nilai, reputasi, dan kepercayaan bisnis. Platform manajemen eksposur berbasis AI milik perusahaan ini secara radikal menyatukan visibilitas, wawasan, dan tindakan keamanan di seluruh permukaan serangan, membekali organisasi modern untuk melindungi diri dari serangan, mulai dari infrastruktur TI, lingkungan cloud, infrastruktur penting, dan di mana pun di antaranya. Dengan melindungi perusahaan dari eksposur keamanan, Tenable mengurangi risiko bisnis bagi sekitar 44.000 pelanggan di seluruh dunia. Pelajari lebih lanjut di tenable.com
(rd/pjminews)









LEAVE A REPLY