euskaraespañol

Euskorpora Elkartera batu da Euskal Herriko Unibertsitatea

  • Albisteak

Lehenengo argitaratze data: 2025/04/01

Euskorpora aurkezteko ekitaldia 2025eko otsailaren 19an | Argazkia: Irekia

Eusko Jaurlaritzak sustatu duen Euskorpora elkarteko bazkide berria da UPV/EHU. Euskararen corpus digitala sortzeko misioaren baitan, unibertsitateak egingo duen ekarpena Euskara eta Hizkuntza Plangintzarako Errektoreordetzak eta HiTZ zentroak lideratuko dute, anitz urteko ibilbidea, jakintza eta eskarmentua nahiz egungo ikerketa lerroak oinarri hartuta. HiTZ Hizkuntza Teknologiako Euskal Zentroak hizkuntza idatzia eta ahotsa lehengai dituen adimen artifizialean ikerketa, prestakuntza, transferentzia teknologikoa eta berrikuntza sustatzen ditu.  

EHUko Euskara eta Hizkuntza Plangintzarako Errektoreorde Igone Zabalaren esanetan, “funtsezkoa da corpus digitala sortzea eta modu aktibo eta metodikoan garatzea euskara eraldaketa digitaletik kanpo ez geratzeko”. EHUk ekarpen handia egin dezake zeregin horretan, alorreko ezagutzatik ez ezik, hamarkada hauetan aurrera eraman duen corpusgintza lanetik ere.   EHUko Euskara Institutuak 2013an aurkeztu zuen ordura arte euskararen corpusik handiena zena. Euskal Hizkuntza eta Komunikazioa Sailak HiTZ zentroko Ixa taldearekin eta Elhuyar Fundazioarekin batera hamarkada bat baino gehiago darama Garaterm corpus akademikoa elikatzen, egun 26 milioi hitz baino gehiago dituena.  Euskara Errektoreordetzaren babespean euskarara itzuli diren ehunka eskuliburu ere digitalizatu, paralelizatu eta kontsultagai jarri dira EHUskaratuak corpusean. 

Ildo horretan, “EHU eragile aktiboa izan behar da euskarazko corpusaren garapenean eta ustiapenean eta, horretarako, urrats garrantzitsua egin du Euskorpora elkarteko kide eginez”, azpimarratu du Zabalak.  

Hitz zentroko zuzendari Eneko Agirrek adierazi duenez, “EHUk euskarazko hizkuntza-teknologia hizkuntza nagusien pare jarri nahi du abangoardiako ikerkuntzaren bidez. Horretarako ezinbestekoa da corpusen lanketarako estrategian asmatzea, eta horretan ere lagundu nahi dio Euskorporari. Izan ere Adimen Artifizial Sortzailearen teknikek errotik aldatu dute hizkuntzaren teknologia eta corpusen lanketa garai berrietara egokitzea beharrezkoa da”.  Ildo horretatik HiTZ zentroak ahotseko eta idatzizko corpus irekiak bildu eta lantzen dihardu, horrekin eredu libreak eraiki ahal izateko. https://huggingface.co/HiTZ webgune ospetsuan ikus daitezke atzigarri dauden corpus eta ereduak, milaka aldiz jaitsi izan dituztenak kanpoko eta barruko eragileek.  Eneko Agirreren iritziz “oso garrantzitsuak dira corpus libre horiek, edozein enpresak euskara ahal den denbora motzenean eta errazenean bere produktuetan integratu eta erabil ditzan”. Adibide bezala euskarazko ahotsaren transkripziorako dagoen corpus libre handiena dago bertan, 400.000 aldiz jaitsi izan dena, eta Latxa hizkuntza-eredua entrenatzeko erabiltzen den corpusa, miloi bat aldiz jaitsi izan dena.