Čínský AI startup Moonshot překonává GPT-5 a Claude Sonnet 4.5

Čínský AI startup Moonshot narušil očekávání ve vývoji umělé inteligence poté, co jeho model Kimi K2 Thinking překonal GPT-5 od OpenAI a Claude Sonnet 4.5 od Anthropic v několika výkonnostních benchmarcích, což vyvolalo obnovenou debatu o tom, zda americkou dominanci v oblasti AI zpochybňují nákladově efektivní čínské inovace.

Společnost Moonshot AI se sídlem v Pekingu, oceněná na 3,3 miliardy dolarů a podporovaná technologickými giganty Alibaba Group Holding a Tencent Holdings, vydala open-source model Kimi K2 Thinking 6. listopadu a dosáhla toho, co pozorovatelé z oboru nazývají dalším „momentem DeepSeek“ – odkazem na dřívější narušení předpokladů o nákladech na AI startupem ze Hangzhou.

Výkonnostní metriky zpochybňují americké modely

Podle příspěvku společnosti na blogu GitHub dosáhl Kimi K2 Thinking skóre 44,9 % v testu Humanity’s Last Exam, benchmarku velkých jazykových modelů sestávajícím z 2 500 otázek z široké škály předmětů, čímž překonal 41,7 % GPT-5.

Model také dosáhl 60,2 % v benchmarku BrowseComp, který hodnotí schopnost procházení webu a vytrvalost při vyhledávání informací u agentů velkých jazykových modelů, a získal 56,3 %, čímž se stal lídrem v benchmarku Seal-0 navrženém tak, aby zpochybnil modely rozšířené o vyhledávání při dotazech na reálný výzkum.

VentureBeat uvedl, že plné vydání s otevřenými váhami, které se vyrovnává nebo překonává skóre GPT-5, představuje zlomový bod, kdy propast mezi uzavřenými špičkovými systémy a veřejně dostupnými modely fakticky zmizela pro špičkové uvažování a kódování.

Nákladová efektivita vyvolává otázky

Popularita modelu vzrostla poté, co CNBC uvedla, že náklady na jeho trénování činily pouhých 4,6 milionu dolarů, ačkoli se Moonshot AI k nákladům nevyjádřila. Podle výpočtů South China Morning Post byly náklady na aplikační programovací rozhraní Kimi K2 Thinking šest až desetkrát nižší než u modelů OpenAI a Anthropic.

Model využívá architekturu Mixture-of-Experts s jedním bilionem celkových parametrů, z nichž je při každé inferenci aktivováno 32 miliard, a byl trénován pomocí kvantizace INT4, aby dosáhl přibližně dvojnásobného zlepšení rychlosti generování při zachování špičkového výkonu.

Thomas Wolf, spoluzakladatel Hugging Face, komentoval na X, že Kimi K2 Thinking byl dalším případem open-source modelu, který předstihl uzavřený model, a ptal se: „Je to další moment DeepSeek? Měli bychom ho očekávat každé dva měsíce?“

Technické schopnosti a omezení

Výzkumníci Moonshot AI uvedli, že Kimi K2 Thinking stanovil „nové rekordy napříč benchmarky, které hodnotí uvažování, kódování a agentní schopnosti“. Model dokáže provést až 200-300 sekvenčních volání nástrojů bez lidského zásahu a koherentně uvažovat napříč stovkami kroků k řešení složitých problémů.

Nezávislé testování konzultační společností Artificial Analysis umístilo Kimi K2 na vrchol jejího agentního benchmarku Tau-2 Bench Telecom s 93% přesností, což bylo popsáno jako nejvyšší skóre, které kdy nezávisle naměřila.

Nathan Lambert, výzkumník z Allen Institute for AI, však naznačil, že stále existuje časové zpoždění přibližně čtyři až šest měsíců v čistém výkonu mezi nejlepšími uzavřenými a otevřenými modely, ačkoli uznal, že čínské laboratoře se přibližují a vykazují velmi silný výkon v klíčových benchmarcích.

Důsledky pro trh a konkurenční tlak

Zhang Ruiwang, pekingský architekt IT systémů, řekl, že trendem bylo, aby čínské společnosti udržovaly nízké náklady, a vysvětlil: „Celkový výkon čínských modelů stále zaostává za špičkovými americkými modely, takže musí soutěžit v oblasti nákladové efektivity, aby měly cestu ven.“

Zhang Yi, hlavní analytik konzultační společnosti iiMedia, uvedl, že náklady na trénování čínských AI modelů zaznamenávají „srázový pokles“ poháněný inovacemi v architektuře modelů a tréninkových technikách a vstupem kvalitních trénovacích dat, což znamená odklon od hromadění výpočetních zdrojů v raných dobách.

Model byl vydán pod licencí Modified MIT License, která uděluje plná komerční a derivační práva s jedním omezením: nasazovatelé obsluhující více než 100 milionů měsíčně aktivních uživatelů nebo generující více než 20 milionů dolarů měsíčních příjmů musí výrazně zobrazit „Kimi K2″ na uživatelském rozhraní produktu.

Reakce odvětví a budoucí výhled

Deedy Das, partner ve venture kapitálové společnosti Menlo Ventures zaměřené na rané fáze, napsal v příspěvku na X, že „dnes je zlomový bod v AI. Čínský open-source model je číslo 1. Zásadní moment v AI.“

Nathan Lambert napsal v článku na Substacku, že úspěch čínských open-source vývojářů AI, včetně Moonshot AI a DeepSeek, ukázal, jak „přiměli uzavřené laboratoře zapotit se,“ a dodal: „Existuje vážný cenový tlak a očekávání, která [američtí vývojáři] musí zvládat.“

Vydání staví Moonshot AI po bok dalších čínských AI společností jako DeepSeek, Qwen a Baichuan, které stále více zpochybňují narativ o americké nadvládě v AI prostřednictvím nákladově efektivních inovací a strategií vývoje open-source. Zda to představuje udržitelnou konkurenční výhodu nebo dočasnou konvergenci schopností, ukáže čas, jak americké i čínské společnosti pokračují v rozvoji svých modelů.

Zdroj: ainews.co.uk