Halucinace AI představují vážné bezpečnostní riziko zejména proto, že modely prezentují nesprávné výstupy s vysokou mírou sebejistoty. AI modely negenerují ověřené informace – konstruují odpovědi na základě statistických vzorců z trénovacích dat, přičemž výsledek zní věrohodně, ale nemusí být pravdivý. Benchmark AA-Omniscience z roku 2025, který hodnotil 40 modelů, zjistil, že u obtížných otázek dává naprostá většina modelů s větší pravděpodobností sebevědomou, ale chybnou odpověď než správnou. Právě tato kombinace přesvědčivého tónu a faktické nepřesnosti činí halucinace zvláště nebezpečnými v prostředí kybernetické bezpečnosti, kde mohou nesprávné výstupy přímo ovlivňovat automatizované systémy a spouštět provozní akce s reálnými důsledky.
Halucinace vznikají z několika vzájemně propojených příčin. Pokud trénovací data obsahují zastaralé nebo chybné informace, model tyto nedostatky bez jakéhokoliv upozornění převezme do svých výstupů. Nadměrná reprezentace určitých vzorů způsobuje, že model přistupuje k těmto vzorům jako k univerzálně platným, i když kontext situace je zcela odlišný. Základní jazykové modely navíc nejsou konstruovány k ověřování faktické přesnosti – optimalizují pro koherentní a věrohodně znějící odpovědi, nikoliv pro pravdivé. Vágní vstupní výzvy pak tento problém ještě zesilují, protože modelu dávají větší prostor zaplnit informační mezery vlastními domněnkami.
V praxi se halucinace v oblasti kybernetické bezpečnosti projevují třemi způsoby. Prvním jsou zmeškané hrozby: modely trénované na historických datech nedokáží rozpoznat útoky, které těmto vzorům neodpovídají, jako jsou zero-day zranitelnosti, a tyto hrozby tak zůstávají neodhaleny. Druhým jsou vykonstruované hrozby, kdy model nesprávně vyhodnotí normální aktivitu jako škodlivou, čímž generuje falešné poplachy, plýtvá zdroji a postupně vede bezpečnostní týmy k únavě z varování – stav, v němž legitimní hrozby snadno přehlédnou. Třetím a nejnebezpečnějším typem je nesprávná náprava: systém AI s plnou sebejistotou doporučí akce jako smazání souborů, úprava konfigurace systému nebo deaktivace pravidel brány firewall. Jsou-li tyto akce provedeny prostřednictvím privilegovaných účtů, mohou způsobit nevratné škody nebo otevřít cestu útočníkům, a to i v případě, že původní detekce hrozby byla správná.
Organizace mohou tato rizika výrazně snížit kombinací organizačních a technických opatření. Žádná citlivá nebo privilegovaná akce by neměla proběhnout bez ověření člověkem, a to bez ohledu na to, jak přesvědčivě výstup AI zní – modely jsou stejně sebejisté, ať již mají pravdu, nebo ne. Trénovací data je nutné pravidelně auditovat a zbavovat zastaralých, zkreslených nebo nepřesných záznamů, neboť bez průběžné správy dat se riziko chybných výstupů jen zvyšuje, zejména v době, kdy jsou modely stále častěji trénovány na obsahu generovaném jinými modely. AI systémům by měla být přidělena výhradně minimální nezbytná oprávnění, aby chybné doporučení nemohlo způsobit škodu přesahující povolený rozsah. Zaměstnanci by měli být školeni v tvorbě konkrétních a přesných výzev, které snižují prostor pro domněnky modelu. Základem správy AI pak zůstává důsledné zabezpečení identit – jak lidských, tak nehumánních – a vynucování přístupu s nejmenším privilegiem, které zabrání tomu, aby se halucinace proměnila v reálný bezpečnostní incident.
Zdroj: thehackernews.com
