top of page

 

 

 

AI prinaša tudi nevarnosti. Tega se morate zelo dobro zavedati, če želite varno uporabljati AI tehnologijo. Najprej največkrat pomislimo na dileme z avtorskimi pravicami. Ta vidik je podrobneje obrazložen v MARKETING delu (kliknite tu).

Bistveno manj so pa znane manipulacije in nevarnosti imenovane prompt hacking.

Prompt hacking je vrsta napada na sisteme umetne inteligence (AI), ki izkorišča njihove šibkosti. Napadalec lahko uporabi prompt, da orodje AI prisili, da ustvari neprimerno vsebino, kot so žaljivke, sovražne govorice ali lažne novice.

Prompt hacking je običajno težko prepoznati, saj napadalec praviloma uporabi subtilne tehnike, da prisili orodje AI, da ustvari želeno zlonamerno vsebino.

 

Vendar pa obstaja nekaj stvari, ki jih lahko podjetja storijo za izboljšanje svoje sposobnosti za prepoznavanje prompt hackinga:

(1) Eden od načinov za prepoznavanje prompt hackinga je, da se osredotočimo na vsebino, ki jo ustvarja orodje AI. Če je vsebina neprimerna, žaljiva ali zavajajoča, je lahko to znak prompt hackinga.

(2) Drug način za prepoznavanje prompt hackinga je, da se osredotočimo na prompte, ki se uporabljajo za ustvarjanje vsebine. Če so prompti nenavadni ali nenavadno specifični, je lahko to znak, da napadalec poskuša orodje AI prisiliti, da ustvari določeno (zlonamerno) vsebino. 

 

Ob ustreznih promptih lahko tudi dobro usposobljen model povzroči zavajajoče ali zlonamerne rezultate.

Osnova tega pojava je v podatkih za usposabljanje AI modela. Če je bil model med fazo usposabljanja izpostavljen določenim vrstam informacij ali pristranskosti, lahko spretni posamezniki izkoristijo te vrzeli ali nagnjenja s skrbnim oblikovanjem zlonamernih promptov.

Tri osnovne tehnike za manipulacijo AI pozivov so: prompt injections, prompt leaking in jailbreaking.

Kako se AI LLM modeli lahko zlorabijo:

- Napačne informacije: z oblikovanjem pozivov na posebne načine so uporabniki že uspeli doseči, da se LLM strinjajo s teorijami zarote ali posredujejo zavajajoče informacije o trenutnih dogodkih.

Ustvarjanje zlonamerne vsebine: nekateri hekerji so uporabili LLM za ustvarjanje lažnih e-poštnih sporočil, skriptov zlonamerne programske opreme ali drugega zlonamernega digitalnega gradiva.

- Pristranskosti: Ker se LLM učijo iz interneta, včasih podedujejo njegove pristranskosti. Obstajajo primeri, ko so bili v rezultatih modela opaženi rasni, spolni ali politični pristranskosti, še posebej, ko so bili pozvani na točno  določen način.

Podjetja se lahko zavarujejo pred prompt hackingom tako, da uporabljajo ustrezne varnostne ukrepe. Ti ukrepi lahko vključujejo:

  • Uporaba varnostnih filtrov za preprečevanje škodljive vsebine.

  • Ugotavljanje pristnosti uporabnikov, ki ustvarjajo vsebino z orodjem AI.

  • Redno spremljanje vsebine, ki jo ustvarja orodje AI.

 

Poleg teh ukrepov lahko podjetja tudi usposobijo svoje zaposlene za prepoznavanje prompt hackinga. Zaposleni lahko dobijo usposabljanje o tem, kako prepoznati neprimerno, žaljivo ali zavajajočo vsebino, ter o tem, kako prijaviti morebitne sumljive primere.

Tukaj je nekaj specifičnih primerov prompt hackinga:

  • Napadalec lahko uporabi prompt, da orodje AI prisili, da ustvari žaljivo vsebino o določeni osebi ali skupini.

  • Napadalec lahko uporabi prompt, da orodje AI prisili, da ustvari lažne novice, ki so zasnovane za širjenje dezinformacij.

  • Napadalec lahko uporabi prompt, da orodje AI prisili, da ustvari škodljivo kodo, ki lahko napade računalnik ali omrežje.

 

Prompt hacking je resna grožnja za sisteme umetne inteligence. Podjetja, ki uporabljajo orodje AI, morajo sprejeti ukrepe za zaščito pred temi napadi.

NEKAJ KONKRETNIH NASVETOV ZA OBRAMBO:

1. Filtriranje

Filtriranje natančno pregleda bodisi vnos bodisi izhod za vnaprej določene besede ali besedne zveze, s čimer zagotovi, da je vsebina znotraj pričakovanih meja.

❌ brez obrambe: Translate this foreign phrase: {{foreign_input}}

✅ [Blacklist check]: If {{foreign_input}} contains [list of banned words], reject. Else, translate the foreign phrase {{foreign_input}}.

✅ [Whitelist check]: If {{foreign_input}} is part of [list of approved words], translate the phrase {{foreign_input}}. Otherwise, inform the user of limitations.

2. Jasnost konteksta

Ta obrambna strategija poudarja jasno nastavitev konteksta pred kakršnim koli vnosom uporabnika, kar zagotavlja, da model razume okvir odziva.

 

❌ brez obrambe: Rate this product: {{product_name}}

✅ z določitvijo konteksta: Given a product named {{product_name}}, provide a rating based on its features and performance.

3. Vdelava navodil

Z vdelavo posebnih navodil v poziv je mogoče usmerjati vedenje LLM med ustvarjanjem besedila. Z določitvijo jasnih pričakovanj spodbuja model, da je previden glede svojih rezultatov, kar ublaži nenamerne posledice.

 

❌ brez obrambe: Translate this text: {{user_input}}

✅ z vdelavo navodil: Translate the following text. Ensure accuracy and refrain from adding personal opinions: {{user_input}}

 

4. Naključno zaporedje

Za zaščito uporabniškega vnosa pred neposredno manipulacijo poziva je zaprt med dvema zaporedjema naključnih znakov. To deluje kot ovira, zaradi česar je zlonamerno spreminjanje vnosa težje.

 

❌ brez obrambe: What is the capital of {{user_input}}?

✅ z dodanim naključnim zaporedjem: QRXZ89{{user_input}}LMNP45. Identify the capital.

5. Sendvič obramba

Ta metoda obdaja uporabnikov vnos med dvema sistemsko ustvarjenima pozivoma. S tem model bolje razume kontekst in zagotavlja, da je želeni rezultat usklajen z namenom uporabnika.

 

❌ brez obrambe: Provide a summary of {{user_input}}

✅ s "sendvičem": Based on the following content, provide a concise summary: {{user_input}}. Ensure it's a neutral summary without biases.

 

6. XML označevanje

Z vključitvijo uporabniških vnosov v oznake XML ta obrambna tehnika jasno razmeji vnos od preostalega sistemskega sporočila. Robustna struktura XML zagotavlja, da model prepozna in spoštuje meje vnosa.

 

❌ brez obrambe: Describe the characteristics of {{user_input}}

✅ z XML tagi: <user_query>Describe the characteristics of {{user_input}}</user_query>. Respond with facts only.

vir: https://www.unite.ai/prompt-hacking-and-misuse-of-llm/

AI NEVARNOSTI
Poznate prompt hacking?
Kaj pa prompt injections, prompt leaking in jailbreaking?
Nasveti za prepoznavo in obrambo.

ŽELITE POVSEM SVOJ GPT PRILAGOJEN ZA VAŠE POTREBE IN UPORABLJA  VAŠE PODATKE? POVEČAL BO PRODUKTIVNOST, UČINKOVITOST IN RAZBREMENIL ZAPOSLENE. MI VAM TO IZVEDEMO. JAVITE SE TU.

Vaši zaposleni sploh poznajo AI in priložnosti uporabe? Za vas organiziramo delavnice in treninge, pri vas in na vaših primerih. Javite se TU.

✉️ bodite na tekočem s trendi

Hvala za naročilo na AI novosti.

bottom of page