Politikai szövegek véleményelemzése

A tervezett projekt keretében a magyar nyelvű szövegek szentimentelemzésének problémájával foglalkozunk különböző doméneken. Jelenleg a magyar nyelvű szövegek szentimentelemzésére alkalmazható eszköztár szerény: csupán 2 doménfüggetlen szótár érhető el, és ezek bizonyos doméneken nem hatékonyak, ami igaz a más nyelvekről automatikusan fordított, akár doménspecifikus szótárakra is. A projekt fő célja egy a magyar nyelvű korpuszok elemzésére alkalmas doménfüggő szentimentelemzési eljárás kidolgozása.

A feladat megvalósításához számos különböző NLP-módszer kipróbálását tervezzük. A projekt során nagyméretű, dokumentum és mondat szinten kézzel annotált szentimentkorpuszt/korpuszokat hozunk létre. A korpuszokat a különböző domének sajátságainak feltárására, szótárak készítésére, gépi tanításra, valamint a gépi tanuló és a szótáralapú elemző algoritmusok eredményességének tesztelésére használjuk fel. Az elemzéshez egyrészt doménfüggő szentimentszótárakat készítünk, amelyekhez a nemzetközi projektekben sikerrel alkalmazott word embedding alapú label propagation módszert alkalmazzuk a korpuszainkon, és annak különböző módosításaival kísérletezünk. Másrészt a kézzel annotált korpuszból képzett training set segítségével, felügyelt gépi tanulás alkalmazását tervezzük, amihez elsődlegesen a poltextLAB projektben kidolgozott felhőalapú klasszifikációs eljárást használjuk, mely nagy hatékonysággal (akár 95% feletti precisionnel) képes 20-nál kategória osztályozására.

Elért eredményeink: kidolgoztuk a politikai szövegek target szintű annotálásának alapelveit és minőségbiztosításának rendszerét. Az így kidolgozott annotálási elvek alapján kézzel annotáltattunk 1000 darab parlamenti felszólalást. Ugyancsak elkészítettünk egy kis erőforrásigényű emócióklasszifikáló BERT-alapú megoldást, mely saját korpuszon tanult. Célunk magyar nyelvű média korpuszon, BERT-alapú klasszifikálás segítségével az alábbiak megvalósítása:

1. A politikai kommunikáció vizsgálata mesterséges intelligencia segítségével: A kutatás során politikusok média megszólalásaiban három érzelem, a szégyen, a bűntudat és a büszkeség megjelenési formáit vizsgáljuk, adott politikai eseményekhez kapcsolódóan például a megszólaló politikai pozíciója (ellenzéki-kormánypárti-nem politikus), az érzelmi ajánlat megjelenése (mely médiumban jelent meg az érzelmi ajánlat: kormánypárti-kormánykritikus), az érzelmi ajánlat tárgya (miért érez/érzezzen valaki valahogy) változók mentén. Célunk, hogy a szótáras megoldásokon túllépve, korszerű BERT-alapú klasszifikálással ragadjuk meg a kommunikáció rejtett dimenzióit a morális érzelmek és morális politika kutatási területéhez kapcsolódóan.

2. Az előzőhöz kapcsolódva egy olyan elemzési keretrendszer kidolgozásának megkezdése, ami segítséget jelenthet a sajtóban megjelenő torzítások feltérképezésében. A kutatás ezen fázisában egy konkrét témához kötődően (amely átfedésben lesz az előző kérdésben vizsgált témával) végeznénk szintén nagy nyelvi modellekre épülő elemzéseket, hogy megvizsgáljuk az adott téma sajtóbeli keretezését, a témához kapcsolódó torzításokat és elhallgatásokat. 

 

Kulcsszavak: szentimentelemzés, magyar nyelv, doménfüggőség, gépi tanulás, szótár alapú elemzési módszer, szótárkészítés, kézzel annotált korpusz