Po první vlně generativní umělé inteligence, která se soustředila především na text, přichází další, ještě zásadnější revoluce. Podle nové predikce analytické společnosti Gartner bude do roku 2030 až 80 % veškerého podnikového softwaru a aplikací multimodálních. To znamená, že budou schopny nativně pracovat s kombinací textu, obrazu, videa i hlasu.
Další generace AI bude rozumět obrazu, videu i hlasu
Analytická společnost Gartner zveřejnila novou zprávu o nastupujících technologiích, ve které označila multimodální umělou inteligenci za jeden z nejdůležitějších trendů pro nadcházející roky. Její predikce je jednoznačná: zatímco v letošním roe je multimodálních méně než 10 % podnikových aplikací, do konce dekády jich bude celých 80 %. Pro firmy a vývojáře softwaru je to jasný signál.
Podstata multimodální AI spočívá ve schopnosti jednoho modelu plynule pracovat s různými typy datových vstupů a výstupů. Již se nejedná jen o generování textu nebo obrázku na základě textového zadání. Moderní modely dokáží analyzovat video, porozumět mluvenému slovu, prohledat databázi a jako výstup vygenerovat kombinaci textu, grafu a obrázku. Právě tato schopnost komplexního chápání a propojování různých datových formátů je klíčem k jejich obrovskému potenciálu.
Podle analytičky Gartneru, Roberty Cozzy, tato technologie revolučním způsobem změní podnikové aplikace. V sektorech jako zdravotnictví umožní analyzovat lékařské snímky v kontextu poznámek lékaře, ve financích zase propojí grafy z burzy s aktuálními zprávami z trhu. Vylepšením doménově specifických jazykových modelů se navíc zvýší přesnost, zautomatizují se celé operace a AI bude schopna činit proaktivní rozhodnutí napříč různými úkoly.
Obrázek: Pexels
Zdroj: gartner.com
Zdroj: B2B NETWORK NEWS