OpenAI přiznává, že úplné odstranění kybernetických útoků typu „prompt injection“ v rámci AI prohlížeče Atlas je nejspíš nereálné. I přes značné investice do bezpečnostních opatření společnost připouští, že riziko zneužití vstupů uživatele a škodlivého obsahu nelze zcela eliminovat.
Co jsou prompt injections?
Jde o techniky, které umožňují vložit do požadavku modelu škodlivé nebo manipulativní instrukce. Takové vstupy mohou model přimět k vykonání nežádoucí akce, například k úniku citlivých informací nebo k poskytování zavádějících odpovědí.
OpenAI proto klade důraz na vícevrstvou obranu: technická opatření v kombinaci s pravidelnými aktualizacemi modelů a pečlivým návrhem rozhraní. Cílem není slibovat absolutní bezpečí, ale minimalizovat rizika a umožnit rychlou reakci na objevené slabiny.