A projekt fő célja különböző magyar nyelvű szövegek (online hírportálok, újságcikkek, politikusi beszédek, parlamenti felszólalások) elemzésére alkalmas szentimentés emócióelemzési eljárások kidolgozása. Ezen eljárások célja az egyes szövegek tartalmából kinyerni azokat az információkat, amelyek értékelést fejeznek ki. Az elemzés különböző szinteken végezhető, részint attól függően, mi az elemzés alapegysége és meghatározzuk-e azt, hogy az érzelem mire irányul, vagy mi váltja ki azt. A szakirodalom különbséget tesz a pozitív-negatív-semleges skálán mozgó szentiment és a több kategóriával dolgozó érzelemelemzés között, melyek közül az utóbbi sokkal több információt nyújt az adott egység érzelmi töltetéről.
A feladat megvalósításához számos különböző módszerrel kísérletezünk. Egyrészt nagyméretű kézzel annotált szentiment- és emóciókorpuszokat hozunk létre, melyeket szótárak készítésére, gépi tanításra, valamint a gépi tanuló és a szótáralapú elemző algoritmusok eredményességének tesztelésére használunk fel. A projekt során word embedding segítségével, a szóbeágyazást online hírportálok szövegein elvégezve készítettünk egy pozitív-negatív skálán mérő szentimentszótárat. Kidolgoztunk egy induktív érzelemkategorizáló rendszert, amely 12 különböző érzelmet különböztet meg a politikai szövegekben. Kategóriarendszerünk átváltható a nemzetközileg is használt emóciókategóriákra, így alkalmas az azokkal való összevetésre is.
Kettős vak kódolással elkészítettünk egy 5700 mondatból álló, mondatszinten annotált szentiment- és emóciókorpuszt, valamint egy tagmondat szinten annotált parlamenti beszédekből épített szentiment- és emóciókorpuszt (HunEmPoli), ahol az azonosított 39840 érzelmet azok argumentumaival is összekötöttük. Mindkét korpuszunk annotálása szigorú minőségbiztosítás mellett, nagy kódolók közötti egyetértéssel történt. A projekt jelenlegi szakaszában a HunEmPoli korpuszból képzett tanítóadatok segítségével a huBERT-modell finomhangolásával egy szentiment- és emócióelemző modell tanításán dolgozunk. Parlamenti beszédkorpuszunk vizualizálására egy internetes felületet is létrehoztunk: https://napirendek.hu/erzelmek/.
Résztvevő kutatók:
Guba Csenge
Ring Orsolya
Szabó Martina Katalin
Váradi Bendegúz
Vincze Veronika
Publikációk:
Ring Orsolya, Vincze Veronika, Guba Csenge, Üveges István. HunEmPoli: magyar nyelvű, részletesen annotált emóciókorpusz. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XIX. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet, 2023
Szabó Martina Katalin, Vincze Veronika, Ring Orsolya, Guba Csenge. Nagyot mondó képviselők? Fokozás a politikai kommunikációban. In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVIII. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet, 2022
Üveges István, Vincze Veronika, Ring Orsolya, Guba Csenge. Aspect-based emotion analysis of Hungarian parliamentary speeches. In: Proceedings of the 2nd Workshop on Computational Linguistics for Political Text Analysis, Potsdam, 2022
Ring Orsolya (Erjavec, Tomaž, Ogrodniczuk, Maciej, Osenova, Petya et al.) The ParlaMint corpora of parliamentary proceedings. Language Resources and Evaluation, 2022
Együttműködő partnerek:
Budapesti Műszaki és Gazdaságtudományi Egyetem, Távközlési és Médiainformatikai Tanszék, SmartLAB
Charles University, Prága Kempelen Institute, Pozsony
Montana Tudásmenedzsment Kft.
Vistula University, Varsó
Konferencia-előadások:
Ring Orsolya, Guba Csenge, Vincze Veronika, Üveges István. HunEmPoli: magyar nyelvű, részletesen annotált emóciókorpusz, XIX. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, 2023.01.26-27.
Szabó Martina Katalin, Vincze Veronika, Ring Orsolya, Guba Csenge. Nagyot mondó képviselők? Fokozás a politikai kommunikációban. XVIII. Magyar Számítógépes Nyelvészeti Konferencia, online, 2022.01.27–28.
Üveges István, Vincze Veronika, Ring Orsolya, Guba Csenge. Aspect-based emotion analysis of Hungarian parliamentary speeches. KONVENS 2022, 2nd Workshop on Computational Linguistics for Political Text Analysis, Potsdam, 2022.09.12–15.
Repozitórium:
Github - A novel cost-efficient use of BERT embeddings in 8-way emotion classification on a Hungarian media corpus
Github - Aspect based emotion analysis of Hungarian parliamentary speeches
Github - HunEmPoli corpus
Github - Possibilities and limitations of a lexicon-based sentiment analysis of Hungarian political news