Syntetická data mají chránit soukromí, přesto existuje teoretické riziko odhalení původních osob

16 června, 2025

Rozvoj umělé inteligence (AI) je neoddělitelně spjat s přístupem k rozsáhlým datovým souborům, které slouží k trénování algoritmů. V kontextu stále se zpřísňujících požadavků na ochranu osobních údajů, se syntetická data jeví jako perspektivní řešení. Jedná se o uměle generovaná data, která statisticky napodobují vlastnosti reálných datových sad, aniž by obsahovala konkrétní osobní údaje skutečných jedinců. Jejich využití tak může významně snížit rizika spojená se zpracováním citlivých informací a zároveň umožnit efektivní vývoj AI modelů.

Zásadní výhodou syntetických dat z pohledu GDPR je skutečnost, že pokud jsou tato data vytvořena tak, že neumožňují identifikaci žádné fyzické osoby (jsou tedy plně anonymizovaná), nepovažují se za osobní údaje. Na takto vytvořené datasety se pak GDPR přímo nevztahuje, což organizacím usnadňuje jejich sdílení, zpracování a využití pro trénink AI. Přesto samotný proces generování syntetických dat, pokud vychází z reálných osobních údajů, musí být v souladu s GDPR. To znamená, že pro původní sběr a použití reálných dat pro účely vytvoření syntetického datasetu musí existovat platný právní základ, jako je souhlas subjektu údajů nebo oprávněný zájem správce, a musí být dodrženy všechny principy zpracování osobních údajů, včetně minimalizace dat a omezení účelu.

Legislativní požadavky se však neomezují pouze na GDPR. Připravovaný Akt o umělé inteligenci (AI Act) klade důraz na robustnost, bezpečnost a transparentnost AI systémů, zejména těch vysoce rizikových. Syntetická data mohou přispět k naplnění těchto požadavků tím, že umožní vytvářet rozmanitější a vyváženější datasety, které mohou pomoci redukovat zkreslení (bias) v AI modelech. Dále mohou sloužit k testování a validaci AI systémů v kontrolovaném prostředí bez rizika úniku reálných citlivých informací.

Je nutné zajistit, aby generovaná data byla dostatečně kvalitní a reprezentativní, aby nedocházelo k trénování chybných nebo zkreslených modelů. Existuje také teoretické riziko, že by i ze syntetických dat mohlo být za určitých okolností možné odvodit informace o původních reálných datech, pokud by proces anonymizace a generování nebyl proveden dostatečně pečlivě. Proto je nezbytné investovat do pokročilých technik generování a validace syntetických dat a neustále monitorovat jejich kvalitu a bezpečnost.

Zdroj: ICT NETWORK NEWS

Atopická dermatitida je onemocnění, které zásadně ovlivňuje kvalitu života

Atopická dermatitida není jen kosmetický problém, ale závažné chronické zánětlivé onemocnění kůže výrazně snižující kvalitu života pacientů. Ti se denně potýkají nejen s viditelnými projevy

Číst dále »

15 září, 2025

Zebra Systems výhradním distributorem řešení Kerio pro Severní Ameriku

Společnost GFI Software oznámila reorganizaci s cílem posílit svou strategii pro distribuční kanál řešení Kerio v Severní Americe. S účinností od 12. října 2025 se

Číst dále »

15 září, 2025