80 % firemního softwaru bude do roku 2030 multimodální, tvrdí Gartner

Po první vlně generativní umělé inteligence, která se soustředila především na text, přichází další, ještě zásadnější revoluce. Podle nové predikce analytické společnosti Gartner bude do roku 2030 až 80 % veškerého podnikového softwaru a aplikací multimodálních. To znamená, že budou schopny nativně pracovat s kombinací textu, obrazu, videa i hlasu.

Další generace AI bude rozumět obrazu, videu i hlasu

Analytická společnost Gartner zveřejnila novou zprávu o nastupujících technologiích, ve které označila multimodální umělou inteligenci za jeden z nejdůležitějších trendů pro nadcházející roky. Její predikce je jednoznačná: zatímco v letošním roe je multimodálních méně než 10 % podnikových aplikací, do konce dekády jich bude celých 80 %. Pro firmy a vývojáře softwaru je to jasný signál.

Podstata multimodální AI spočívá ve schopnosti jednoho modelu plynule pracovat s různými typy datových vstupů a výstupů. Již se nejedná jen o generování textu nebo obrázku na základě textového zadání. Moderní modely dokáží analyzovat video, porozumět mluvenému slovu, prohledat databázi a jako výstup vygenerovat kombinaci textu, grafu a obrázku. Právě tato schopnost komplexního chápání a propojování různých datových formátů je klíčem k jejich obrovskému potenciálu.

Podle analytičky Gartneru, Roberty Cozzy, tato technologie revolučním způsobem změní podnikové aplikace. V sektorech jako zdravotnictví umožní analyzovat lékařské snímky v kontextu poznámek lékaře, ve financích zase propojí grafy z burzy s aktuálními zprávami z trhu. Vylepšením doménově specifických jazykových modelů se navíc zvýší přesnost, zautomatizují se celé operace a AI bude schopna činit proaktivní rozhodnutí napříč různými úkoly.

Obrázek: Pexels

Zdroj: gartner.com

Zdroj: B2B NETWORK NEWS