Magyar nyelvű benchmark adatbázisok létrehozása és felhasználása gépi tanuláson alapuló algoritmusok fejlesztésére

A digitalizáció rohamos terjedésének, valamint a nyelvtechnológiai eszközök gyors fejlődésének köszönhetően az alkalmazott nyelvészeti kutatásokon belül az elmúlt időszakban kiemelt szerep jutott azon empirikus és adatvezé - relt vizsgálati irányoknak, amelyek a társadalomtudományos kérdéseket valós szövegtestek (korpuszok) vizsgálatával kívánnak megválaszolni. A részprojekt - ben a CAP meglévő adatbázisait fejlesztettük tovább és benchmark adatbá - zisokat készítettünk el a meglévő adataink két irányban történő bővítésével. Egyrészt a már meglévő 2010 és 2022 közötti interpellációk, azonnali kérdé - sek és napirend előtti felszólalások mellé bevontuk a (szóbeli) kérdéseket, másrészt az immár négy szövegtípusra vonatkozó adatainkat és korpuszain - kat a 2002-2010 közötti két országgyűlési ciklussal is kibővítettük.

A nagyméretű kézzel vagy géppel annotált korpuszok alkalmas erőfor - rások lehetnek olyan korszerű módszerek alkalmazásához is, mint például gépi tanulási modellek tanítása. Ez utóbbiak közül a legfejlettebbek manap - ság szinte kivétel nélkül mesterséges neuronhálók alkalmazásán alapulnak, azonban hatékonysági okok miatt (az olyan nagy modellek használata, mint a BERT, sok esetben rendkívül számításigényes folyamat nem csak a betanítás, de akár a predikciós időben történő alkalmazás kapcsán is) a korábbi módszerek (logisztikus regresszió, szupport vektor gép stb.) alkalmazása is mindmáig indokolható.

A kutatás során az elkészült korpuszokkal gépi tanítási kísérleteket végez - tünk, hogy felmérhessük azok gyakorlati hasznát társadalomtudományi kér - dések megválaszolásában. A módszerek széles spektrumát hasznosítottuk (pl. SVM, LSTM, BERT stb.) annak érdekében, hogy az egyes kutatási kérdésekhez a legalkalmasabb technológiát tudjuk kiválasztani. A kutatás során elkészült benchmark-adatbázis mellett az 1994–2022 közötti parlamenti felszólalások, törvényjavaslatok és törvények korpuszát, adatait tartalmazó Parlawspeechadatbázis, a 2002–2014 közötti Magyar Nemzet-címlapok adatbázisa, valamint megjelent Molnár Csaba If there is nothing else to say: the local content of interpellations című tanulmánya a Journal of Legislative Studies-ban.

Résztvevő kutatók:
Barczikay Tamás
Molnár Csaba
Kiss László
Kiss Rebeka
Klein Adrienn
Kovács Viktor
Kubik Bálint György
Pokornyi Zsanett
Üveges István

Publikáció:
Molnár Csaba. If there is nothing else to say: the local content of inter - pellations. The Journal of Legislative Studies. Published online: 02 Oct 2022 pp. 1–23., Paper: Early Access, 23 p., 2022

Konferencia-előadás:
Boda Zsolt, Kiss László, Molnár Csa - ba. Nemzetközi komparatív adat - bázisok elérhetősége a TK-ban – Bemutatkozik a TK Comparative Agendas Project-je. Szöveg. Gép. Társadalom, Budapest, ELTE Társadalomtudományi Kar, 2022.09.20.

Repozitóriumok:
Hungarian PARLAWSPEECH dataset