Orai: “Adimen artifizialerako gure neurona-eredua euskarazko aurreratuena da ingurune eskalagarrietarako”

0
PRUEBA

Adimen artifizialeko soluzioek eta tresnek azkar ugaritzen jarraitzen duten bitartean, oztopo batzuek bere horretan dirautela dirudi. Hizkuntza naturala baliabide gutxiko hizkuntzetan prozesatzearen kasua da, euskara kasu, baina Orai ikerketa zentroa dagoeneko estrategia berriak aplikatzen ari da, emaitza onekin: Llama-eus-8B garatu du, hizkuntza-eredu neuronal berri bat (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatua. 

Orai giza hizkuntzaren prozesamenduari aplikatutako adimen artifizialean espezializatutako Elhuyarren zentroa da. 2022an jaio zen Elhuyarreko I+G sailaren eskutik, zeinak 20 urteko ibilbidea baitzuen hizkuntza naturalaren prozesamenduaren (NLP, ingelesezko siglen arabera) esparruan. “Elhuyar Orai sortzera bultzatu zuena Hizkuntza Naturalaren Prozesamenduaren arloan saila sendotzea izan zen, merkatuak eta Euskal Herriko gizarteak hizkuntzari aplikatutako adimen artifizialean espezializatutako agente bat izateko dituzten gero eta behar handiagoekin batera. Ikerketara eta garapenera bideratutako jarduerak garatzeko planteatu zen”, azaldu du Xabier Saralegi NLP Teknologien arduradunak.  

Orain, Oraik Llama-eus-8B garatu du, euskararen hizkuntza-ezaugarrietara eta kultura-ingurunera egokitutako eredu fundazionala. Hizkuntza-gaitasun formal eta funtzionalak dituen eredu neuronala da, hau da, testuinguru errealetan euskara ulertzeko eta sortzeko gai da. “Horrek balio handiko oinarria bihurtzen du askotariko sistemak garatzeko, hala nola itzultzaile automatikoak, elkarrizketa-sistemak, bilaketa-motorrak, zuzentzaileak, eduki-sortzaileak edo euskara prozesatu behar den testu-meatzaritzako sistemak”, dio Saralegik. 

Arduradunaren arabera, teknologia mota horiek zeharkakoak dira eta hainbat esparrutan aplika daitezke, hala nola edukien industrian, osasun-sektorean, industrian, lege-eremuan, komunikazioan edo irakaskuntzan. “Euskararen tratamenduan emaitza oso lehiakorrak eta eskalagarriak emango dituzten hizkuntza-teknologiak garatzeko posibilitatea da aukera nagusia”. 

Gaur egun, Orai Llama-eus-8B erabiltzen ari da itzultzaile automatikoen prototipoetan, material didaktikoaren sorkuntzan eta zuzentzaileetan, “etorkizun handiko emaitzekin, laster plataforma eta soluzioetara eramango ditugulakoan. Erabat sinetsita gaude beste eragile edo enpresa batzuek ere integratuko dutela beren irtenbideetan, ez baitugu ahaztu behar erabilera libreko eredua dela”, gogorarazi du Saralegik.  

Hala ere, oraindik denbora falta da produktu edo soluzio horiek garatzeko: ez da berehalakoa izango, oinarrizko eredu hori benetan erabiltzen diren kasuetara egokitzeko prozesuak oraindik garapen-lana eta ikerketa aplikatua eskatzen baitu. Era berean, zentroak hazten jarraitzeko eta “Euskal Autonomia Erkidegoan zein Espainian erreferente bihurtzeko eta nazioarteko merkatuan parte hartzeko” helburuari eusten dio.  

Hala ere, Llama-eus-8B-rako perspektibak onak dira: “Euskarazko hizkuntza-gaitasun formalak (arrazoiketa, munduaren ezagutza, sen ona) eta funtzionalak ebaluatzeko laborategiko testetan, 20.000 milioi parametro baino gutxiagoko ereduen artean emaitzarik onenak dituen eredu fundazionala dela frogatu da. Hala ere, ingelesez baino emaitza txikiagoak eskaintzen ditu oraindik, eta, beraz, ereduaren gaitasunak etengabe hobetzen jarraitzea eta bertsio aurreratuagoak pixkanaka argitaratzea da gure helburua”.  

SPRI Taldeak euskal enpresen I+G bultzatzen du tresnekin, aktiboekin, laguntzekin, lantalde eta aliantzekin, ikerketa sustatzeko eta teknologia berriak sortzeko. Elkartek, Emaitek edo Hazitek bezalako I+Grako laguntza programak kontsulta itzazu.