UPV/EHUko HiTZ Hizkuntza Teknologiako Zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin (aurrekoen bikoitza da) eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da. Latxak duela zenbait urte abiarazitako jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) gainditzen du, eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, azken bertsioa (GPT-4) gainditzen du hizkuntza gaitasunean. “ChatGPT atera zenean imajinaezina zen hura gaindituko zuen euskarazko eredu irekia lor zitekeenik”, azpimarratu du HiTZ zentroko zuzendari Eneko Agirrek. Latxak herrialdeko edozein hizkuntzatarako entrenatutako eredu handiena hartzen du, eta HiTZ ikerguneak tamaina handiko hizkuntza ereduetan duen lidergoa sendotzen du.
Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz baxuagoa da. Horrek handitu egiten du baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei dagokionez behinik behin. UPV/EHUko HiTZ Hizkuntza Teknologiako Zentroak Latxa garatu du, muga horiek gainditzeko eta euskarazko ikerketa, berrikuntza eta produktuen garapena sustatzeko.
Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da, eta corpus hori ereduekin batera banatzen da. Corpus horrek hedatu egiten du aurretik dagoen eta gehien bat Interneteko eduki publikoarekin sortutako corpusak darabiltzan EusCrawl. Guztira 4 milioi dokumentu baino gehiago dira eta 1.200 milioi hitz, aurretik zeuden corpusak baino bi aldiz handiagoa.
Ereduen kalitatea ebaluatzeko, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba banku osatu dira. Grafikoan erakusten da ereduen errendimendua proba mota bakoitzaren arabera, eta eskuinaldean emaitzen batezbestekoa ikus daiteke. HiTZ zentroko zuzendari Eneko Agirrek honako hau adierazi du: “ingeleseko Llama ereduak probatu ditugu, bai eta GPT-3.5 Turbo (2022ko azaroan abiarazitako ChatGPTren baliokidea) eta GPT-4 Turbo (OpenAI duen eredu onena) ere, eta argi ikusten da Latxaren eredu onenak gainditu egiten dituela Llamak eta GPT-3.5 Turbo, proba kasu guztietan. Eredu onenak gainditu egiten du, halaber, GPT-4 Turbo hizkuntza gaitasunari dagozkionez, lehenengo aldiz baliabide digital urriko hizkuntzen eredu ireki batentzat, baina ez gainerako proba bankuetan. Azkenik, azpimarratu behar da Latxa tamainan handitzen ari den neurrian, emaitzak ere hobeak direla”.
Julen Etxanizek, Naiara Pérezekin eta Oscar Sainzekin batera Latxaren egile nagusiak, honako hau dio: “nabarmena da hain corpus txikiarekin halako emaitza onak lortzea; izan ere, horrek aukera ematen digu teknologia berriak ikertu ahala hobekuntza gehiago egin ahal izateko. Oso emaitza esperantzagarria da, euskararentzat ez ezik baliabide digital urriko gainerako hizkuntzentzat ere bai”. Naiara Pérezek hau gaineratu du: “euskara munduko hizkuntzen 50. postuan dago. Interneten dauden testuen arabera, eta badira dozenaka hizkuntza testuen antzeko kopuruak dituztenak; hortaz, euskarari aplikatutako teknikak beste hizkuntza horiei ere aplika dakizkieke, eta emaitzak antzekoak izango direla pentsatu”.
Oscar Sainzek azpimarratu du GPT-4 Turbo gainditu dela hizkuntza gaitasunari dagokionez baina ez gainerako probetan; eta horrek esan nahi du hizkuntza jakin bateko tamaina handiko hizkuntza ereduen gaitasunak ez dituztela soilik haien hizkuntza gaitasunek mugatzen. Horrek baliabide digital urriko hizkuntzen (besteak beste, euskara) emaitzak hobetzeko aukera ematen du, ingelesarentzat eredu ireki hobeak garatzen diren heinean. Arlo horretako lehia gero eta handiagoa denez, nahikoa litzateke Llama baino eredu ireki hobeen zain egotea, eta orduan GPT-4 gaindituko lukeen Latxa entrenatu ahal izango genuke”.
Latxa ereduak oinarrizko ereduak dira, erabiltzaileentzako jarraibideak edo lehentasunak doitu gabekoak. Hortaz, eredu horiek ez dira publiko orokorrak zuzenean erabiltzeko modukoak. Hala ere, Latxa ereduak funtsezkoak dira euskararentzako hizkuntza teknologia erabiliko duten tresna arrakastatsuak eraikitzeko. “Eredu ireki horiek argitaratu ditugu teknikari adituek erabil ditzaten produktuak egiteko edo interesatzen zaizkien aplikazioetara doitzeko. Aldi berean, erabiltzaileen jarraibideei jarraitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago argi euskaraz gaztelaniaren edo ingelesaren antzeko kalitatea izango duten elkarrizketa ereduak eraiki daitezkeen ala ez. Horixe da, hain zuzen ere, gure ikerketen helburua. Zenbait ikerketa egiten ari gara, beste hizkuntza batzuetarako dauden elkarrizketa gaitasunak euskarara eramatea ahalbidetzen duten tekniken ikerketa barne”, azaldu du Eneko Agirrek; eta, era berean, azpimarratu du 70B eredua Estatuko edozein hizkuntzatarako entrenatutako eredurik handiena dela eta horrek sendotu egiten duela HiTZ ikerguneak tamaina handiko hizkuntza ereduetan duen lidergoa.
Informazio osagarria
Berrikusten ari diren zientzia artikulua, ereduak, corpusak eta proba bankuak hemen eskura daitezke: https://github.com/hitz-zentroa/latxa. Latxa ereduak Llama-2 License izenekoa hartzen dute oinordetzan. Eredu horrek ikerketa eta merkataritza jarduera ahalbidetzen ditu.
Latxa Eusko Jaurlaritzak finantzatutako IKER-GAITU proiektuaren esparruan garatu da Eraldaketa Digitalerako eta Funtzio Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak –Europar Batasunak-NextGenerationEUk finantzatutakoa– finantzatutako ILENIA proiektuarekin lankidetzan, 2022/TL22/00215335 erreferentzia duen proiektuaren barruan. HiTZek errendimendu handiko zenbaketa plataforma (HPC) propioa erabili du, eta azken ereduak CINECAren Leonardo superordenagailuan entrenatu dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).