Euskaltzaindiak Euskararen Erreferentzia Corpusa (EEC) aurkeztu du gaur Bilbon. Akademiaren egoitzan egin den agerpenean izan dira, besteak beste, Ibone Bengoetxea Eusko Jaurlaritzako lehenengo lehendakariorde eta Kultura eta Hizkuntza Politikako sailburua, Andres Urrutia euskaltzainburua, Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduraduna eta Aitor Maritxalar Akademiaren aholkulari-teknologikoa.
Andres Urrutiak hasiera-hasieratik azaldu ditu corpus berriaren ezaugarri nagusiak; erreferentzia-corpusa dela esan du, irekia eta kolektiboa: «Erreferentzia–corpusa da, alegia, oreka baten bila doana, hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi dituena, arlo desberdinetako laginak bilduz, egungo euskararen isla emanez. Irekia ere bada, orain arteko materialak bildu dituena eta geroago garrenean ere zabaltzen joango dena, eragile eta material berriekin. Eta, nola ez, kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekin batera egin duelako, hedabide nagusiekin eta gizarte-eragile askorekin batera». Ostean, eskerrak eman die guztiei, aurrerantzean Akademiaren «giltzarri eta oinarri» izango den corpusarekin bat egiteagatik.
Ibone Bengoetxea Kultura eta Hizkuntza Politikako sailburuak Euskaltzaindiak hizkuntzari «prestigioa» ematen diola esan du bere berbaldian. «Euskaltzaindiatik landu eta eskaintzen ari zareten euskararen corpus hau gure historiaren zati bat da eta, aldi berean, gure herriaren etorkizuna gidatuko duen erreferentziazko tresna ere bada», zehaztu du.
EECren zimenduak aspaldi jarri ziren, Miriam Urkiak gogoratu duen moduan: «Euskaltzaindia XX. mendeko 80. hamarkadan hasi zen corpusak lantzen, aitzindaria izan da euskal corpusgintzan. Orotariko Euskal Hiztegiaren corpusa eta Mendeko Euskararen Corpus Estatistikoa ondu zituen aurrena. Ondoren, xxi. mendean sartuaz batera, Lexikoaren Behatokia corpus monitorea osatu zuen. Haingabe Euskaltzaindiak ez zituen izango, esate baterako, Euskaltzaindiaren Hiztegiko hitzak, adierak, erabilera-markak eta horien testuinguruak adierazteko adibideak».
Hala ere, euskararen egunean eguneko erabileraren berri izateko eta hizkuntza-teknologiek ekartzen dizkiguten erronkei aurre egiteko, corpus handiago eta orekatuago baten beharraz jakitun zegoen Akademia, eta orain dela lau urte, hutsune hori betetzeko Euskararen Erreferentzia Corpusa (EEC) abian ipini zuen.
Beraz, zein da EECren helburu nagusia? «Analisi linguistikorako, ikasketa automatikorako edo hizkuntza-ikerketetan hipotesiak baliozkotzeko tresna funtsezkoa da, baina baita hizkuntza-, literatura- edo ikerketa-helburuetarako corpus estandar edo erreferente gisa erabil litekeena ere. ‘Egungo’ egoera islatzen duen neurrian, hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek… erabilgarri izango dute EEC, lexiko- (orokorra zein terminologikoa) eta gramatika-zalantzak argitzeko, eta, jakina, corpus handi horietarako eredu egokiak balioztatzeko ere bai», nabarmendu du Urkiak. Horren haritik, euskaltzainburuak ECC corpus orekatua dela adierazi du, eta horretan sakondu nahi izan du euskaltzain gipuzkoarrak: «EEC egiterakoan kontuan izan ditugu oreka eta adierazgarritasuna. Egungo euskararen erabilera islatzeko helburuarekin, garrantzitsuak dira gaien aniztasuna mantentzea, euskalki guztietako adibideak eta testu-iturri desberdinetako (liburuak, aldizkarik, sarea…) edukiak biltzea, eta publiko mota guztiei zuzendutako testuak (gazteak, publiko orokorra, espezialistak) kontuan izatea».
EECren diseinua eta erreferentzialtasuna
- Zer da hizkuntza-corpusa? Bada, datu-bilduma handi bat da, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri legez erabiltzen dena. Eta erreferentzia-corpusa deritzo, hizkuntza baten garai zehatz baten ahalik eta erakusgarririk xeheena —eta aldi berean zabalena— izateko sortu den corpusari.
- Honela, Euskararen Erreferentzia Corpusa diseinatzerakoan, hurrengo irizpide nagusi hauek erabili dira:
- Medioa: Euskaraz idatzitako testuetan oinarritua dago (batez ere bertsio elektronikoetatik abiatuta). Ahozkoaren transkripziorik ez du oraingoz, baina ahozkorako prestatutakoa bai biltzen duela (serieak, filmak, gidoiak…). Testuen % 48 liburuetatik dator corpusera, % 48 aldizkako argitalpenetatik eta beste % 4a, sarerako berariaz sortutako materialetik.
- Sailkapena: Bi sail nagusitan sailkatu dira testuok, fikzioa (% 25) eta ez-fikzioa (% 75) multzoetan banatuta.
- Kronologia: Azken 25 urteetako testuak jasoko ditu beti EECk. Lehen bertsio honek 2000. urtetik hasi eta 2023. urterainoko testuak barne hartuditu. Urtean-urtean eguneratuko da, beraz, corpus dinamikoa izango da.
«Irizpide horien guztien konbinazio orekatuak dakar erreferentzialtasuna. Horrexek definitzen du erreferentzia-corpusa, orekari eustea beti erraza ez bada ere. Eta, aldi berean, irizpide horiek hiztegiko kontsultak beharren arabera mugatzeko aukera edo bidea ematen digute», gaineratu du Miriam Urkiak prentsaurrekoan.
EECren datu orokorrak
Gaur argitaratutako bertsioak 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema biltzen ditu, 2000. urtetik hasi eta 2023ra bitartean euskaraz idatzitako edo ekoitzitako testuetatik hartuak. Testu horiek guztiak lematizatuak eta sailkatuak izan dira aurretik. Horrela, lema, forma eta kategoria gramatikalen bidezko kontsultak egitea ahalbidetzen du:
— Jatorriari erreparatuz: liburuetatik datozen testu-hitzak 68,42 milioi dira (% 44,37), aldizkako argitalpenetatik 72,49 milioi (% 47,01), sarerako berariaz idatzitakoak 4 milioi (% 2,59) eta bestelako edukiak (argitalpen bereziak, liburuxkak, gidoiak…) 9,3 milioi (% 6,03) testu-hitz.
— Testu-motaren arabera: fikziozko testu-hitzak 39,67 milioi dira (% 25,73) eta ez-fikziozko testuak 114,54 milioi (% 74,27).
Tamaina horretakoa izateak ardura handiei erantzutea eskatzen du:
- Testu horien jabeak diren argitaletxe, erakunde eta komunikabideen eskuzabaltasuna izan ez balitz, ezinezkoa izango zen holako corpusik. Gainera, horiekin guztiekin hitzarmenak sinatu dira, beren eskubideak bermatzeko.
- Testuak jaso eta formatu-egokitzapenak egiteko, testuen jabeak diren etxeetako teknikarien lankidetza ere nahitaezkoa izan da.