Magyar nyelvű benchmark adatbázisok létrehozása és felhasználása gépi tanuláson alapuló algoritmusok fejlesztésére

Közpolitikára és poltikai szentimentre kódolt, és NLP layoutokkal ellátott (pl. NER) parlamenti beszéd (1990-2020) és napilap korpuszok létrehozása: Média: Népszabadág (2003-2014) Magyar Nemzet (2003-2014) Index (1999-2016) Parlamenti beszéd: Interpelláció (1990-2020) Azonnali kérdések (1994-2020) Napirendi felszólalások (1990-2020) Napirend előtti felszólalások (1990-2020)

A különböző gépi tanuló algoritmusok fejlesztéséhez és eredményességének teszteléséhez szükség van nagy méretű, jó minőségű magyar nyelvű, felcímkézett adatbázisok létrehozására. A tervezett részprojektben a CAP meglévő adatbázisainak továbbfejlesztésével és bővítésével ilyen benchmark adatbázisok elkészítését tervezzük. Az együttműködés révén létrejövő adatbázisok alkalmasak lesznek a TK-n belül vagy más konzorciumi partnerekkel kooperálva végezett gépi elemzések elvégzésére.