CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu dute, tartean dira Allen Institute for AI, Chan Zuckerberg Initiative, Georgetown University, Microsoft Research, National Institutes of Health eta Etxe Zuriko Office of Science and Technology Policy. Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 60.000 artikulu zientifiko inguru jarri dituzte eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan berriki egin diren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurka borrokan ari diren zientzilariei laguntzeko literatura zientifiko horretan lagungarri zaien informazioa ahalik eta errezen bilatzen.
Txapelketaren lehen fasean ehunka parte-hartzaile izan dira. 10 sari banatu dituzte, eta horietako bat irabazi du HiTZ zentroko Ixa taldean garatutako sistemak. Sistemaren garapenean Euskal Herriko Unibertsitateko Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu dute parte. Hauek garatutako sistemak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek dituzten lehentasunezko galderen erantzunak bilatzen ditu aipatutako artikulu zientifiko horiek aztertuz. Sistema hau erabilgarria da, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko. Sistemaren emaitza Estatu Batuetako NIH delakoaren aditu talde batek epaitu du, eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun dion sistema bezala aukeratu dute. Gai horrek galdera zehatzak ditu, hala nola, “Is the use of screening of neutralizing antibodies such as ELISAs valid for early detection of disease?”. Sistemak, besteak beste, “Serologic assays are not useful for early diagnosis as igg antibodies do not appear for 7 – 10 days after onset of symptoms” erantzuna eman dio galdera horri, 2004/12/31an “Paediatric Respiratory Reviews” aldizkarian argitaratu zen “SARS: future research and vaccine” artikuluan oinarriturik.
Sari hori —dio Jon Ander Campos doktoratu aurreko ikertzaileak— Ixa taldearen barruan hizkuntzaren prozesamendurako adimen artifizialaren erabileran egindako lanaren aitorpena da. Eneko Agirre irakasleak gaineratu du etengabe sortzen den informazio-kantitate handiari aurre egiteko hizkuntzaren prozesamendurako sistemek duten garrantziaren froga dela. Arantxa Otegi doktoratu ondoko ikertzailearen arabera, sistemak 60.000 artikulu kontsultatzen ditu, eta horietako seiren bat 2020koak dira. Hortaz, koronabirusari buruzko ia 100 artikulu argitaratzen dira egunero batez beste, zientzialariek horiek denak irakurtzeko duten gaitasuna gaindituz.
Saritutako sistema hilabete eskasean garatu zen. Taldearen barruan garatutako teknologiak erabiltzen ditu, hizkuntza naturalean egindako galderei erantzuteko eta erantzun posibleak dokumentu askotan bilatzeko sare neuronalak entrenatzeko aukera ematen dutenak. Gainera, txapelketa honetarako garatutako sistema gai da bere burua ebaluatzeko eta erantzunik ez emateko baldin eta ziur ez badago erantzuna zuzena dela. Hori dela beraien sistemaren gakoetako bat dio Aitor Soroa irakasleak, horrela gehiegizko informazioa gutxitzen baita.