Môžu sa báť úradníci, účtovníci, programátori, učitelia, novinári, lekári ale aj skladatelia a grafici. Takto nejako môže vyzerať interpretácia, ktorú ste mohli zachytiť v poslednom čase v médiách. Skutočnosť však bude o čosi prozaickejšia. Veď pripomeňme si, ako Elon Musk nahradzuje šoférov. Minimálne dekádu nám sľubuje umelú inteligenciu, ktorá bude samostatne viesť vozidlo. A zatiaľ sme dostali, síce veľmi pokročilý, ale nie dostatočne spoľahlivý asistenčný systém, ktorý by dokázal kedykoľvek a kdekoľvek bez problémov nacúvať s kamiónom k vykladacej rampe obchodu.
Umelá inteligencia má veľa limitov, ktoré bránia jej masovému rozšíreniu. V súčasnosti sú tou najviac elementárnou enormné požiadavky na výkon. Ale krátka história IT nás učí, že výkon je prekážkou len krátky čas. Koniec koncov, už dnes, každé nové zariadenie, ako je notebook alebo mobil, obsahuje NPU a aj pre veľké centrálne prevádzkované jazykové modely sa črtá riešenie. Preto, ak chceme pochopiť, čo nás čaká v tejto oblasti, mali by sme našu pozornosť skôr obrátiť k už spomínanej spoľahlivosti. Pretože spoľahlivosť je práve jeden z atribútov, ktoré teraz výrazne limitujú širšie využívanie umelej inteligencie v praktickom živote.
Existuje veľa spôsobov a špecifických techník, ako zlepšiť kvalitu umelej inteligencie. Záleží od druhu umelej inteligencie a od jej technologického riešenia. Čo nám však ukázali veľké jazykové modely (LLM) je, že úplne kritickým bodom sú údaje vo veľkom množstve. Zjednodušene povedané: ak neurónovú sieť nakŕmite celým internetom, dostanete algoritmus, ktorý s vami dokáže pomerne vierohodne komunikovať v prirodzenom jazyku. Aspoň sa tak javí. Jednoduché. Avšak nie celkom.
LLM majú celý rad už spomínaných problémov so spoľahlivosťou. Okrem zrejmého aspektu halucinácií (každý si už vyskúšal, ako si vedia vymýšľať), ich interpretácie sú často pod nánosom rôznych zaujatých predsudkov a majú problém s humorom, sarkazmom a emocionalitou. Čo sa v skutočnosti deje vo vnútri algoritmu a aké mechanizmy používa pre tvorbu výsledkov zatiaľ nevieme. Čo však už vieme je, že nemožno oddeliť umelú inteligenciu od toho ako funguje spoločnosť. A všetko čo stroj vie o spoločnosti, vie prostredníctvom jazyka.
To že jazyk je fundamentálny pre fungovanie jazykových modelov vyplýva už z ich povahy. Ide predsa o „jazykové“ modely. To však aký význam a implikácie bude mať ďalší vývoj v multijazyčnej spoločnosti, budeme zisťovať až v budúcnosti. Už dnes je však zrejme, že to nebude vyvážená hra. Budú vyhrávať „veľké“ jazyky, ale nie veľké z pohľadu reálneho používania, ale z pohľadu používania v digitálnom svete. Tu s prevahou valcuje všetko jeden jazyk – angličtina. Až 50% internetu je totiž v anglickom jazyku. Druhá polovica je rozdelená medzi ostatné „veľké“ internetové jazyky, ale už len v zanedbateľnom 3-5% podiele (španielčina, nemčina, angličtina, ruština, francúzština, atď.).
Taktiež sa ukazuje, že hoci považujeme internet za obrovský zdroj údajov, v merítku dát potrebných pre trénovanie LLM, až taký obrovský nie je. Ba dokonca, prestáva nám stačiť. To však vzbudzuje zaujímavú otázku: ak pre spoľahlivejšie a lepšie modely umelej inteligencie potrebujeme viac kvalitnejších dát a ukazuje sa, že už nestačí ani celý internet, ktorý je z polovice po anglicky, akú kvalitu jazykových modelov môžeme očakávať v iných jazykoch?
Možno namietať, že predsa už dnes existujú multijazyčné modely a predsa nie je problém komunikovať s chatbotmi aj v iných jazykoch. To je pravda, ale ako naznačujú výskumy, modely trénované v anglickom jazyku používajú interne tento jazyk aj pre dotazy v iných jazykoch. A teda výstup, ktorý dostávame v iných jazykoch, je len druhotný, interpretovaný a preložený. Opäť môžme namietať: ale predsa takto funguje celý svet. Knihy, filmy, média sa prekladajú bežne a na preklade predsa nie je nič zlé. To je síce pravda, avšak preklad a jeho presnosť je alchýmia sama o sebe.
A ak dnes kvalita strojového prekladu záleží od dát, ktorých dnes nemáme dostatok ani pre spoľahlivé fungovanie v angličtine, ako ich môžeme mať dostatok na spoľahlivý preklad? Ako spoľahlivo budeme vedieť prekladať do slovenčiny, aj so zachytením všetkých špecifík jazyka, ako je humor, sarkazmus, emocionalita, ktoré sú problémom aj v primárnom jazyku?
Otáznym teda zostáva, akú úroveň veľkých jazykových modelov a nástrojov založených na nich môžeme v budúcnosti očakávať rôznych jazykoch? Dokáže technológia preklenúť nedostatok údajov? Alebo bude jedna časť celosvetovej spoločnosti profitovať so sady nástrojov, ktoré iným jazykovým kultúram nebudú dostupné? A nedeje sa to už náhodou aj dnes? Koľko funkcií mobilných asistentov máme dostupných v slovenčine, v maďarčine alebo estónčine?