Rozvoj umělé inteligence (AI) je neoddělitelně spjat s přístupem k rozsáhlým datovým souborům, které slouží k trénování algoritmů. V kontextu stále se zpřísňujících požadavků na ochranu osobních údajů, se syntetická data jeví jako perspektivní řešení. Jedná se o uměle generovaná data, která statisticky napodobují vlastnosti reálných datových sad, aniž by obsahovala konkrétní osobní údaje skutečných jedinců. Jejich využití tak může významně snížit rizika spojená se zpracováním citlivých informací a zároveň umožnit efektivní vývoj AI modelů.
Zásadní výhodou syntetických dat z pohledu GDPR je skutečnost, že pokud jsou tato data vytvořena tak, že neumožňují identifikaci žádné fyzické osoby (jsou tedy plně anonymizovaná), nepovažují se za osobní údaje. Na takto vytvořené datasety se pak GDPR přímo nevztahuje, což organizacím usnadňuje jejich sdílení, zpracování a využití pro trénink AI. Přesto samotný proces generování syntetických dat, pokud vychází z reálných osobních údajů, musí být v souladu s GDPR. To znamená, že pro původní sběr a použití reálných dat pro účely vytvoření syntetického datasetu musí existovat platný právní základ, jako je souhlas subjektu údajů nebo oprávněný zájem správce, a musí být dodrženy všechny principy zpracování osobních údajů, včetně minimalizace dat a omezení účelu.
Legislativní požadavky se však neomezují pouze na GDPR. Připravovaný Akt o umělé inteligenci (AI Act) klade důraz na robustnost, bezpečnost a transparentnost AI systémů, zejména těch vysoce rizikových. Syntetická data mohou přispět k naplnění těchto požadavků tím, že umožní vytvářet rozmanitější a vyváženější datasety, které mohou pomoci redukovat zkreslení (bias) v AI modelech. Dále mohou sloužit k testování a validaci AI systémů v kontrolovaném prostředí bez rizika úniku reálných citlivých informací.
Je nutné zajistit, aby generovaná data byla dostatečně kvalitní a reprezentativní, aby nedocházelo k trénování chybných nebo zkreslených modelů. Existuje také teoretické riziko, že by i ze syntetických dat mohlo být za určitých okolností možné odvodit informace o původních reálných datech, pokud by proces anonymizace a generování nebyl proveden dostatečně pečlivě. Proto je nezbytné investovat do pokročilých technik generování a validace syntetických dat a neustále monitorovat jejich kvalitu a bezpečnost.
Zdroj: ICT NETWORK NEWS