Estaldura zabaleko euskararako analizatzaile sintaktiko estatistikoa

  1. BENGOETXEA KORTAZAR, KEPA XABIER
Dirixida por:
  1. Koldobika Gojenola Galletebeitia Director

Universidade de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 16 de decembro de 2014

Tribunal:
  1. Arantza Díaz de Ilarraza Sánchez Presidente/a
  2. Miguel Ballesteros Martínez Secretario/a
  3. María Aranzazu del Pozo Echezarreta Vogal
  4. Basilio Sierra Araujo Vogal
  5. Goiuria Sagardui Mendieta Vogal

Tipo: Tese

Teseo: 118104 DIALNET

Resumo

Tesi lan honen helburu nagusia da euskararako estaldura zabala izango duendependentzietan oinarritutako analizatzaile sintaktiko estatistikoa sendo batlortzea, eta, xede horretarako, hurrengo eginkizunak burutu dira:- Artearen egoera diren analizatzaile sintaktiko estatistiko sortzaileenjarduteko modua ikasi eta egokienak aukeratzea.- Aukeratutako analizatzaile sintaktiko estatistiko sortzaileak euskararaegokitzeko behar diren oinarrizko elementuak egokitu: zuhaitz-bankua,algoritmo sintaktikoa, ikasketa automatikoa eta ezaugarrien modeloa.- Lehenengo probak zuhaitz-bankuan dauden urre-patroiko ezaugarrimorfosintaktikoekin egin dira. Baina, zuhaitz-bankuko esaldiak analisimorfologiko eta desanbiguatze moduluetatik pasa ostean lortutako ezaugarrimorfosintaktiko automatikoekin analizatzaile sintaktikoa benetako egoerabatean probatuko da.Sistemak egokitu ostean, eta sistema hauen zehaztasuna hobetze aldera, bestehizkuntzekin arrakastatsuak izan diren hainbat teknika euskarara moldatudira:- Zuhaitz-transformazio teknikak, nahiz eta buru-osagarri eta burumodifikatzaileegitura gehienek analisi berdintsua izan dependentziagramatikan,badaude eztabaidagarriak diren egitura asko, besteak beste: aditzlaguntzaileaaditz nagusiaren gobernatzailea izatea edo ez; determinatzailesintagman,determinatzailea burua izatea edo ez; postposizio-sintagman,azken hitza burua izatea edo ez; koordinazioetan, juntagailu edokoordinazioaren lehenengo edo azken osagaia buru izatea edo ez.Erabakitzeko unean teoria ezberdinak aurki daitezke. Etiketatze-teoriadesberdinen eragina aztertzeko, zuhaitz-bankuari aplikatutako aldez aurretikoeta ondorengo prozesaketa ezberdinak azalduko dira: proiektibizaziotransformazioa, sintagmen transformazioa, mendeko perpausentransformazioa eta koordinazioaren transformazioa.- Pilaketa edo stacking teknika: ikasketa denboran, analizatzaile bibateratzeko, lehenengo analizatzailearen irteeran lortutako egituraezaugarriak, bigarren analizatzailearen sarrera aberasteko erabili dira.Euskara buru-azkeneko hurrenkera duen hizkuntza izanik, lehenengoanalizatzailearen irteera ematen duten ezaugarri morfosintaktikoek (numeroa,kasua eta mendeko perpausa bezalakoak) bigarren analizatzailea aberasdezaten, printzipio linguistikoak hartuko dira oinarritzat.- Bozketa bidezko konbinaketa teknika: analizatzaile modelo desberdinenirteerak kontuan hartuko dira, irteera bateratu eta egoki bat lortzekoasmoarekin. Aztergai dauden esperimentuak egite aldera, eta dependentzietanoinarritutako analizatzaileen irteerak bateratzeko, bozketaren bidezkokonbinaketa erabili da. Sortutako oinarrizko sistemen (sistemen egokitzapenagauzatu ostean) eta sistema hedatuen (pilaketa eta zuhaitz-transformazioteknika osagarriak gauzatu ostean) irteerak konbinatu dira aniztasunfaktoreak analisian izan dezakeen eragina probatzeko.- Informazio semantikoaren aberasketa aspalditik, hizkuntzarenprozesamenduan, egitura sintaktikoen desanbiguazioan (hitzen adierendesanbiguazioan, eta bide batez, analizatzaile sintaktikoaren lana hobetzeko),informazio semantikoa erabiltzea pentsatu da. Hizkuntzaren prozesamenduansemantika jorratu ahal izateko ezinbestekoa da ezagutza-base lexikosemantikoak(EBLSak) garatzea. EBLSak hitzei eta adierei buruzkoinformazioa duten baliabide lexikal egituratuak dira. IXA taldean,euskararako EBLSa garatzen den bitartean, ingeleserako garatuta dagoenEBLSa (WordNeta) erabili da. Horrela informazio semantikoak analisisintaktikoan izan dezakeen eragina aztertzeko WordNeteko klase semantikoaketa corpusetik ateratako hitz-multzoak probatu dira