Doménspecifikus szentimentelemzési-eljárás kidolgozása magyar nyelvű szövegek elemzésére

A tervezett projekt keretében a magyar nyelvű szövegek szentimentelemzésének problémájával foglalkozunk különböző doméneken. Jelenleg a magyar nyelvű szövegek szentimentelemzésére alkalmazható eszköztár szerény: csupán 2 doménfüggetlen szótár érhető el, és ezek bizonyos doméneken nem hatékonyak, ami igaz a más nyelvekről automatikusan fordított, akár doménspecifikus szótárakra is. A projekt fő célja egy a magyar nyelvű korpuszok elemzésére alkalmas doménfüggő szentimentelemzési eljárás kidolgozása. A feladat megvalósításához számos különböző NLP-módszer kipróbálását tervezzük.

A projekt során nagyméretű, dokumentum- és mondatszinten kézzel annotált szentimentkorpuszt/korpuszokat hozunk létre. A korpuszokat a különböző domének sajátságainak feltárására, szótárak készítésére, gépi tanításra, valamint a gépi tanuló és a szótáralapú elemző algoritmusok eredményességének tesztelésére használjuk fel.

Az elemzéshez egyrészt doménfüggő szentimentszótárakat készítünk, amelyekhez a nemzetközi projektekben sikerrel alkalmazott word embedding alapú label propagation módszert alkalmazzuk a korpuszainkon, és annak különböző módosításaival kísérletezünk. Másrészt a kézzel annotált korpuszból képzett training set segítségével, felügyelt gépi tanulás alkalmazását tervezzük, amihez elsődlegesen a POLTEXT projektben kidolgozott felhőalapú klasszifikációs eljárást használjuk, mely nagy hatékonysággal (akár 95% feletti precisionnel) képes 20-nál kategória osztályozására.

Kulcsszavak: szentimentelemzés, magyar nyelv, doménfüggőség, gépi tanulás, szótár alapú elemzési módszer, szótárkészítés, kézzel annotált korpusz