Skjáskot af malheildir.arnastofnun.is
Skjáskot af malheildir.arnastofnun.is
Fréttir | 28. janúar 2020 - kl. 14:55
Húnahornið styrkir Risamálheildina

Húnahornið hefur gefið Stofnun Árna Magnússonar í íslenskum fræðum leyfi til að nýta texta af vefsetrinu huni.is fyrir rannsóknir, orðabókagerð og máltækniverkefni. Samkomulag þess efnis var undirritað í gær. Búin verður til málheild úr textunum sem verða greindir málfræðilega. Hverri orðmynd verður látinn fylgja greiningarstrengur, mark (e. tag), sem sýnir orðflokk og önnur málfræðileg atriði, t.d. kyn, tölu og fall fallorða, og persónu, tölu og tíð sagna. Einnig mun fylgja hverri orðmynd nefnimynd (e. lemma) sem er t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna.

Undanfarið hefur verið unnið að því á Stofnun Árna Magnússonar í íslenskum fræðum að setja saman safn texta sem má nýta fyrir málrannsóknir og máltækniverkefni. Textasafnið er kallað Risamálheild og inniheldur að mestu leyti texta fréttamiðla, en einnig t.d. alþingisræður, lög, blogg og dóma. Hægt er að skoða Risamálheildina hér

Á vefsetri Húnahornsins er að finna mikið magn texta en vefurinn hefur verið stafræktur frá árinu 2001 eða í nærri 19 ár. Stór textasöfn eru mikilvægur efniviður fyrir gerð margs kyns máltæknibúnaðar eins og t.d. búnaðar fyrir málfarsleiðbeiningar, þýðingarkerfi, talgreina og talgervla. Málheildin nýtist einnig þeim sem vilja kanna orðræðu ákveðins tímabils (hversu oft notaði t.d. ráðherra orðið x í ræðum sínum?).

Stofnun Árna Magnússonar í íslenskum fræðum hefur sóst eftir því að fá leyfi fyrir notkun texta frá öllum stærstu fréttamiðlum landsins og vefjum sem innihalda mikið magn af textum. Sem dæmi um aðila sem veitt hafa leyfi eru RÚV, MBL, VÍSIR, Alþingi og dómstólar. Nýlega kom út ný útgáfa af Risamálheildinni en nýjustu textarnir í henni eru frá árinu 2018. Útgáfan inniheldur 1,51 milljarð orða en fyrri útgáfa þar sem nýjustu textarnir voru frá árinu 2017 inniheldur 1,38 milljarð orða. Markmiðið er að orðum í Risamálheildinni fjölgi um 10% árlega og því er stofnunin sífellt í leit að fleiri miðlum sem geta gefið leyfi fyrir notkun á efni sínu í málheildina.

Höf. rzg

Húnahornið - Fréttavefur allra Húnvetninga