Dari Prompt Injection ke Mission Drift: Ancaman Baru di Era AI Agent

Adopsi Agentic AI dalam organisasi modern berkembang sangat cepat. AI tidak lagi hanya berfungsi sebagai chatbot yang merespons pertanyaan, tetapi telah berubah menjadi agen otonom yang mampu mengambil keputusan, menggunakan tools, mengakses API, dan menjalankan tugas bisnis secara langsung.

Namun, transformasi ini juga membuka permukaan serangan baru yang jauh lebih kompleks. Menurut Radware, ancaman terhadap AI tidak lagi berhenti pada prompt injection, tetapi telah berevolusi menjadi sesuatu yang lebih berbahaya: mission drift—pergeseran tujuan operasional AI akibat manipulasi bertahap.

Prompt Injection: Titik Masuk Serangan

Selama ini, prompt injection dikenal sebagai teknik manipulasi input untuk mengarahkan AI agar menyimpang dari instruksi awalnya. Pada sistem chatbot sederhana, dampaknya biasanya terbatas pada:

Output yang tidak diinginkan
Kebocoran informasi ringan
Penyimpangan respons teks

Namun dalam sistem agentic AI, dampaknya jauh lebih serius. Prompt injection tidak lagi hanya memengaruhi “apa yang dikatakan AI”, tetapi juga apa yang dilakukan AI.

AI modern dapat:

Menjalankan fungsi (function calling)
Mengakses database
Mengirim email
Mengubah data sistem
Berinteraksi dengan agen lain

Dengan kemampuan ini, satu prompt berbahaya dapat menjadi titik awal eksekusi tindakan nyata di sistem organisasi.

Evolusi Ancaman: Dari Input ke Eksekusi

Radware menjelaskan bahwa prompt injection kini bukan lagi serangan akhir, melainkan fase awal dari rantai serangan yang lebih panjang.

Dalam model ancaman modern, serangan AI dapat berkembang melalui tahapan seperti:

Initial Access – prompt injection atau input manipulatif
Privilege Escalation – memanfaatkan tool atau akses tambahan
Persistence – menyimpan instruksi jangka panjang dalam memori AI
Lateral Movement – berpindah antar sistem atau agen
Action on Objective – pencurian data atau manipulasi sistem

Ini menunjukkan bahwa AI agent kini berperilaku seperti sistem software kompleks yang dapat “dijadikan malware” melalui manipulasi bahasa.

Apa Itu Mission Drift?

Jika prompt injection adalah serangan awal, maka mission drift adalah hasil akhirnya.

Mission drift terjadi ketika AI agent secara bertahap menyimpang dari tujuan awal yang ditentukan oleh organisasi, tanpa disadari oleh sistem pengawas.

Contohnya:

AI customer service yang awalnya hanya membantu pelanggan, tetapi perlahan mulai membocorkan informasi internal karena manipulasi instruksi tersembunyi
AI workflow automation yang mulai menjalankan tugas di luar scope karena “terbujuk” oleh data atau konteks yang dimanipulasi
AI finance assistant yang mengoptimalkan “efisiensi” dengan cara yang melanggar kebijakan keamanan

Yang berbahaya adalah bahwa drift ini tidak terjadi secara tiba-tiba, melainkan akumulasi kecil dari interaksi yang tampak sah.

Mengapa AI Agent Sangat Rentan

Ada beberapa alasan utama mengapa AI agent rentan terhadap prompt injection dan mission drift:

1. Menggabungkan Bahasa dan Eksekusi

Berbeda dengan sistem tradisional, AI agent menggunakan bahasa alami sebagai antarmuka utama untuk menjalankan tindakan sistem. Ini membuat batas antara “instruksi” dan “data” menjadi kabur.

2. Akses ke Tools dan API

AI agent modern tidak hanya berpikir, tetapi juga bertindak melalui tools seperti:

API internal
Database query
Sistem email
Workflow automation

Artinya, manipulasi kecil bisa menghasilkan dampak sistemik.

3. Konteks yang Terus Bertambah (Memory)

AI agent menyimpan memori jangka panjang yang dapat dipengaruhi oleh input sebelumnya. Jika memori ini terkontaminasi, maka keputusan masa depan juga ikut terpengaruh.

4. Ketergantungan pada Retrieval (RAG)

AI sering mengambil data dari dokumen eksternal. Jika sumber ini dimanipulasi, maka AI dapat “percaya” pada informasi yang salah.

Dampak Bisnis dari Mission Drift

Mission drift bukan hanya masalah teknis, tetapi juga risiko bisnis serius:

Kebocoran data sensitif melalui jalur tidak langsung
Keputusan bisnis yang salah akibat bias atau instruksi tersembunyi
Pelanggaran compliance karena AI bertindak di luar kebijakan
Kerusakan reputasi jika AI berinteraksi dengan pelanggan secara tidak tepat
Eksploitasi sistem internal melalui tool abuse

Dalam skenario terburuk, AI yang “tersesat” dapat bertindak seperti insider threat otomatis yang tidak terlihat.

Mengapa Guardrails Tradisional Tidak Cukup

Banyak organisasi masih mengandalkan AI guardrails berbasis filter prompt atau output. Namun Radware menekankan bahwa pendekatan ini tidak lagi memadai.

Alasannya:

Serangan terjadi di antara langkah, bukan hanya di input/output
AI agent membuat keputusan multi-step yang tidak bisa diawasi hanya dengan filter teks
Prompt injection bisa tersembunyi dalam dokumen, email, atau data retrieval

Dengan kata lain, masalahnya bukan hanya “apa yang dikatakan AI”, tetapi bagaimana AI mengambil keputusan dan mengeksekusi tindakan secara berantai.

Pendekatan Keamanan yang Dibutuhkan

Untuk menghadapi ancaman ini, organisasi perlu beralih ke pendekatan baru:

1. Behavioral Monitoring

Mengawasi pola tindakan AI, bukan hanya input teks.

2. Tool-Level Permission Control

Membatasi apa yang bisa dilakukan AI melalui API dan sistem internal.

3. Context Isolation

Memisahkan data dari instruksi agar tidak tercampur dalam satu channel.

4. Identity and Policy Enforcement

Memberikan identitas unik untuk setiap AI agent dengan hak akses terbatas.

5. Continuous Observability

Mencatat seluruh keputusan dan langkah AI untuk audit dan deteksi anomali.

Kesimpulan: AI Agent Membutuhkan Paradigma Keamanan Baru

Perjalanan dari prompt injection ke mission drift menunjukkan satu hal penting: AI agent bukan sekadar aplikasi, tetapi entitas operasional yang dapat dimanipulasi seperti sistem kompleks lainnya.

Jika prompt injection adalah “pintu masuk”, maka mission drift adalah “korupsi jangka panjang” dari perilaku AI.

Organisasi yang ingin mengadopsi Agentic AI secara aman harus memahami bahwa keamanan tidak lagi cukup hanya di level input atau output. Dibutuhkan pendekatan menyeluruh yang mencakup:

Identitas
Tools
Memori
Observability
Kontrol perilaku

Pada akhirnya, keamanan AI bukan tentang mencegah satu serangan, tetapi tentang memastikan bahwa tujuan AI tetap selaras dengan tujuan organisasi, setiap saat, dalam setiap keputusan.

Radware Indonesia merupakan bagian dari PT. iLogo Infralogy Indonesia, yang berperan sebagai mitra resmi dalam menghadirkan solusi keamanan aplikasi dan perlindungan infrastruktur jaringan untuk menjaga kontinuitas bisnis dan performa digital organisasi di Indonesia.

Selain menyediakan solusi resmi Radware, kami juga bertindak sebagai penyedia layanan (vendor) dan distributor solusi DDoS Protection, Application Delivery, serta Cybersecurity, lengkap dengan dukungan konsultasi, implementasi, dan layanan purna jual profesional. Melalui teknologi perlindungan berbasis AI dan platform terintegrasi, kami membantu organisasi mencegah serangan, meningkatkan ketersediaan layanan, dan memastikan performa aplikasi tetap optimal.