UPV/EHUko HiTZ Zentroak euskararentzako hizkuntza eredurik handiena garatu du: Latxa

0

Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua ausazko asmatzetik hurbil dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokionez behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu du, muga horiek gainditzeko eta LLMetan oinarritutako euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzak lagundu du (IKER-GAITU proiektuaren barruan).

Latxaren ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez direnak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko. Alabaina, eredu hauek funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna arrakastatsuak eraikitzeko. “Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikazio jakinetara doitu dezaten. Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen den adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat. Hori da, hain zuzen, gure ikerketen jomuga eta hortaz oraingo hau lehen bertsio bat bezala hartu daiteke, ikerketaren ondorioz eredu hobeak sortu nahi ditugu eta”, azaldu du Eneko Agirrek, HiTZ Zentroko zuzendariak. Ereduak garatzeko GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.

Irudiak eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. “Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak (hiru barra moreak). Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela”, azaldu du Agirrek.

Latxa ereduek LLaMA-2 License delakoa heredatzen dute, ikerkuntzarako eta jarduera komertziala baimentzen duena. “Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskaraz erabiltzeko pentsatu dira, eta hortaz, beste hizkuntzatan duten kalitatea ez dugu bermatzen”, esan du HiTZeko zuzendariak.

Ereduak HuggingFace daude eskuragarri.