Vyberte stranu

Veľké jazykové modely (LLM) dnes používame na písanie, analýzu dát aj programovanie. Menej sa však hovorí o tom, že aj model môže obsahovať skryté správanie, ktoré sa aktivuje len pri konkrétnom „spúšťači“. Vtedy sa môže tváriť ako bežný pomocník, no v kritickej chvíli spraviť niečo, čo nechceš.

Čo znamená „trojský kôň“ v LLM

V tomto kontexte ide o model, ktorý:

  • sa navonok správa normálne,
  • no obsahuje skrytý trigger (fráza, vzor, typ vstupu),
  • po aktivácii začne vracať nebezpečný obsah alebo oslabí bezpečnostné pravidlá.

Ako sa takéto správanie môže do modelu dostať

1) Otrávené tréningové dáta (data poisoning)

Do dát sa primiešajú špeciálne príklady. Model sa naučí, že pri konkrétnom vzore má reagovať „inak“.

2) Zásah do váh modelu (weight poisoning)

Priamy zásah do parametrov modelu vie vytvoriť skryté správanie, ktoré je ťažko odhaliteľné bežným testovaním.

Prečo je to problém v praxi

  • backdoor sa môže aktivovať až po čase,
  • klasické testy ho nemusia odhaliť,
  • riziko sa prenáša aj cez dodávateľský reťazec (supply-chain),
  • ohrozené sú citlivé dáta aj interné workflow.

Ako sa brániť (prakticky)

Over zdroj modelu

Používaj dôveryhodné repozitáre a oficiálne vydania.

Testuj model na „nečakané“ vstupy

Skúšaj variácie promptov, chybné formáty a neštandardné kombinácie.

Zavedi monitoring v produkcii

Loguj podozrivé výstupy a nastav alerty pri anomáliách.

Nepovoľuj modelu viac práv, než potrebuje

Použi princíp minimálnych oprávnení (least privilege).

Čo robiť hneď dnes

1. Spíš, kde všade vo firme LLM používate.

2. Označ systémy, ktoré pracujú s citlivými dátami.

3. Nastav testovací checklist pred každým nasadením modelu.

4. Raz mesačne sprav bezpečnostný audit promptov a výstupov.

Záver

Trojské správanie v LLM nie je sci-fi. Je to reálne bezpečnostné riziko, ktoré treba riešiť procesom: overený zdroj, testovanie, monitoring a rozumné oprávnenia. Kto to podcení, môže mať problém neskôr — potichu a bez varovania.

Zdroje

Súvisiace články na ITY.sk