Přeskočit na hlavní obsah

AI hacking: Jak hackeři lámou jazykové modely

Nahlédněte do mysli útočníků a naučte se prakticky odhalovat slabiny AI aplikací pomocí hacking technik, které dnes skutečně fungují proti nejpoužívanějším modelům.

Radek Hendrych, CTO @ SingleCase a výzkumník AI bezpečnosti
90 minut

Hodnocení webináře

Celkové hodnocení webináře AI hacking
Zpětná vazba – Martina Koutová
Zpětná vazba – Eva Matyášová
Zpětná vazba – Pavel Gloss
Zpětná vazba – Miloš Havlíček

Jak to dnes s AI vypadá

AI a AI aplikace se dostávají do produkce rychleji než jakákoliv jiná technologie předtím.

  • Prototypy se mění v core funkcionalitu.
  • Modely dostávají přístup k datům, nástrojům i rozhodování.
  • Agenti začínají jednat za nás.

Bezpečnost se přitom:

  • řeší až ve chvíli, kdy je problém,
  • přebírá formu obecných doporučení,
  • staví na předpokladu, že model má guardrails.

Výsledek:

  • falešný pocit bezpečí,
  • nečekané průniky přes prompt injection,
  • modely, které ochotně spolupracují proti vlastní aplikaci.

Co když se na AI podíváme očima útočníka

Zkušení útočníci neřeší, co by měl model dělat. Řeší, co ho lze donutit dělat. Bezpečnostní testování AI není o checklistech, ale o pochopení konkrétních slabin dnešních modelů a způsobů, jak je zneužít. V této přednášce se dostaneme:

  • do role útočníka,
  • k technikám, které reálně fungují na současné modely,
  • k praktickým ukázkám zranitelností.

Uvidíte například

  • Jak ochotně modely poskytnou recept na smrtící bojový plyn.
  • Jak v přímém přenosu přehodnotí svůj morální kompas.
  • Jak Gemini odhalí své konkrétní slabiny, a tím pomůže útočníkovi.

Ano, budeme se věnovat prompt injection a technikám, které cílový model dovedou za hranice jeho bezpečnostních omezení.

Co si odnesete

Jaké techniky útoků na AI dnes skutečně fungují.

Jak prakticky testovat prompt injection a jailbreaky.

Jak odhalovat slabiny agentic workflows na reálném příkladu.

Jak přemýšlet o AI security tak, aby odpovídala realitě, ne marketingu.

O přednášejícím

Radek Hendrych je CTO společnosti SingleCase a nezávislý výzkumník v oblasti AI Security. Patří mezi hlavní přispěvatele databáze útočných promptů PromptIntel a je úspěšným řešitelem pokročilých výzev Hackaprompt 2.0. Několik jím publikovaných zranitelností uvidíte přímo na této přednášce — bez cenzury a s praktickým kontextem.

Získat přístup ke všem webinářům

Koupit za €12 / měsíc

Další zpětná vazba

Jan Bartoš o webináři napsal příspěvek na LinkedIn