POLTEXTLAB

A Text Mining of Political and Legal Texts (POLTEXTLAB) projekt célja, hogy Big Data módszerekkel vizsgáljon magyar nyelvű és külföldi politikai és jogi dokumentum-gyűjteményeket. A kvalitatív adatforrások (szövegek, képek és videók) elemzésének hagyományos megközelítései jellemzően az adatok kézi feldolgozására építenek. Miközben a forrásanyag ismerete továbbra is nélkülözhetetlen bármilyen társadalomtudományi vizsgálatban, a kézi feldolgozás korlátai is nyilvánvalóak, elsősorban kutatási eredmények megbízhatósága és érvényessége tekintetében. Ugyanis mivel az emberi döntéshozatali folyamat óhatatlanul hordoz magában szubjektív elemeket, két emberi kódoló igen könnyen különböző címkét rendelhet valamely szöveg ugyanazon részéhez. Továbbá az adatforrások széles skálája, nagy terjedelme (pl. egy ország minden elfogadott törvényének szövege) kivitelezhetetlenné teheti az emberi adatfeldolgozást. A kvantitatív szövegelemzési és szövegbányászati megközelítések a szöveges forrásokat alapul vevő társadalomtudományi Big Data projektek tekintetében új módszertani standardot jelentenek.

A projekt során nagyméretű szövegkorpuszokat építünk, amelyeket elsődlegesen különböző, mesterséges intelligencián alapuló gépi tanító algoritmusok fejlesztésére és azok eredményességének tesztelésére használunk fel. Cél a meglévő algoritmusok eredményességének javítása és új algoritmusok kidolgozása. Tervezzük a POLTEXTLAB projektben korábban kidolgozott felhőalapú klasszifikációs eljárás – mely nagy hatékonysággal (akár 95% feletti precisionnel) képes 20-nál kategória osztályozására – kiterjesztését nem magyar nyelvű korpuszok elemzésére is. A projekt másik kiemelt célja a hasonlóan gondolkodó, szövegbányászati technikákat alkalmazó kutatókból álló hazai és nemzetközi hálózatot létrehozása.