A Text Mining of Political and Legal Texts (poltextLAB) projekt célja, hogy Big Data módszerekkel vizsgáljon magyar nyelvű és külföldi politikai és jogi dokumentum-gyűjteményeket. A kvalitatív adatforrások (szövegek, képek és videók) elemzésének hagyományos megközelítései jellemzően az adatok kézi feldolgozására építenek. Miközben a forrásanyag ismerete továbbra is nélkülözhetetlen bármilyen társadalomtudományi vizsgálatban, a kézi feldolgozás korlátai is nyilvánvalóak, elsősorban a kutatási eredmények megbízhatósága és érvényessége tekintetében. Az adatforrások széles skálája, nagy terjedelme (pl. egy ország minden elfogadott törvényének szövege) kivitelezhetetlenné teheti az emberi adatfeldolgozást. A kvantitatív szövegelemzési és szövegbányászati megközelítések a szöveges forrásokat alapul vevő társadalomtudományi Big Data projektek tekintetében így új módszertani standardot jelentenek.
A projekt során nagyméretű szövegkorpuszokat építünk, amelyeket elsődlegesen különböző, mesterséges intelligencián alapuló gépi tanító algoritmusok fejlesztésére és azok eredményességének tesztelésére használunk fel. Célunk magyar nyelvű szövegek elemzésére új módszertani megoldások kidolgozása, a meglévő algoritmusok eredményességének javítása, és új hibrid eljárások fejlesztése klasszifikációs feladatok megoldására, de egyben a módszerek kiterjesztése a nem magyar nyelvű korpuszok elemzésére is. Sikerrel alkalmazzuk a különböző legkorszerűbb nagy nyelvi modelleket (pl. BERT) mind a magyar nyelvű, mind a többnyelvű klasszifikáció során, akár 20 osztályra is. A 2022-es év végén sikeresen bemutattuk legújabb innovációnkat, a CAP BABEL MACHINE-t, ami multilingual BERT-modell segítségével a Comparative Agendas Project (CAP) projekt szakpolitikai kódkönyvének fő témáit használja a szövegek szakpolitikai területeinek automatizált azonosításához. A poltextlab.com/cap-machine címen elérhető űrlapon keresztül a felhasználók feltölthetik a kódolni kívánt fájlokat, majd az általunk kialakított folyamat segítségével rövid időn belül kézhez kaphatják a kész adatokat.
A projekt kiemelt célja a hasonlóan gondolkodó, szövegbányászati technikákat alkalmazó kutatókból álló hazai és nemzetközi hálózatot létrehozni. Évek óta fő szervezői vagyunk a nemzetközi COMPTEXT konferenciának, amelynek célja, hogy lehetőséget biztosítson kutatásaikban a szövegbányászatot alkalmazó kutatók rendszeres találkozására, egymás eredményeinek megismerésére. Konferenciáinkon rangos nemzetközi egyetemekről és kutatóintézetekből évente közel 150 fő vesz részt. A projekt keretében évente 2–3 alkalommal tartunk szövegbányászati képzéseket társadalomtudósoknak. Szövegbányászat és Mesterséges Intelligencia képzési programunk kezdő és haladó szinten nyújt bevezetést a felügyelt és felügyelet nélküli gépi tanulási algoritmusok alkalmazásába. A program alapjául szolgáló, saját korpuszaink elemzésein alapuló Szövegbányászat és mesterséges intelligencia R-ben című tankönyvünk (szerzők: Sebők Miklós, Ring Orsolya, Máté Ákos) 2021-ben jelent meg. Adatvizualizáció az R-ben kurzusunk célja, hogy gyakorlatias és interaktív áttekintést nyújtson az R ggplot2 csomagját használó adatvizualizációról.
Együttműködő partnerek:
Jagiellonian University Kraków
National University of Ireland, Galway
Nemzeti Közszolgálati Egyetem
Közigazgatástudományi Doktori Iskola
opsci - Opinion Science
Pécsi Tudományegyetem
Microsoft AI Tudásközpont
Reichman University
Szegedi Tudományegyetem
University of Cologne
University of Strathclyde, Glasgow
Résztvevő kutatók:
Dinnyés Ágnes
Járay István
Gelányi Péter
Kis György Márk
Kiss Rebeka
Kovács Ádám
Kovács Viktor
Kubik Bálint
Lehoczki Richárd
Máté Ákos
Molnár Csaba
Ring Orsolya
Sebők Miklós
Székely Anna
Üveges István
Publikációk:
Bolonyai Flóra, Sebők Miklós. Kvantitatív szövegelemzés és szövegbányászat. In: Jakab András, Sebők Miklós (szerk.) Empirikus jogi tanulmányok. Budapest: Osiris Kiadó, MTA Társadalomtudományi Kutatóközpont, 660 p., pp. 361–380., 20 p., 2020
Gelányi Péter, Sebők Miklós, Ring Orsolya. A topikmodellezés lehetőségei és korlátai egy törvénykorpusz példáján. Statisztikai Szemle 100: 8., pp 783–814., 2022
Kiss Rebeka, Sebők Miklós. Creating an Enhanced Infrastructure of Parliamentary Archives for Better Democratic Transparency and Legislative Research – Report on the OPTED forum in the European Parliament (Brussels, Belgium, 15 June 2022). International Journal of Parliamentary Studies, 2 (2), pp. 278–284, 2022
Máté Ákos, Sebők Miklós, Lukasz Wordliczek, Dariusz Stolicki, Feldmann Ádám. Machine Translation as an Underrated Ingredient? Solving Classification Tasks with Large Language Models for Comparative Research. Computational Communication Research, 2023
Sebők Miklós, Boda Zsolt (szerk.). Policy Agendas in Autocracy, and Hybrid Regimes. London: Palgrave MacMillan, 2021
Sebők Miklós, Gajduschek György, Molnár Csaba (szerk.). A magyar jogalkotás minősége: Elmélet, mérés, eredmények. Budapest: Gondolat Kiadó, 400 p., 2020
Sebők Miklós, Kacsuk Zoltán. The Multiclass Classification of Newspaper Articles with Machine Learning: The Hybrid Binary Snowball Approach. Political Analysis 29: 2, pp 236–249., 14 p., 2021
Sebők Miklós, Kacsuk Zoltán, Máté Ákos. The (real) need for a human touch Testing a human-machine hybrid topic classification workflow on a New York Times corpus. Quality and Quantity: International Journal of Methodology 56, pp. 3621–3643., 23 p., 2022
Sebők Miklós, Kiss Rebeka, Járay István. Introducing HUNCOURT: A New Open Legal Database Covering the Decisions of the Hungarian Constitutional Court for Between 1990 and 2021. Journal of the Knowledge Economy, 2023: 08 May, 1-34., 2023
Sebők Miklós, Kozák Sándor. From State Capture to „Pariah” Status? The Preference Attainment of the Hungarian Banking Association (2006-2014). Business and Politics 23: 2, pp 179–201., 2021
Sebők Miklós, Kubik Bálint György, Molnár Csaba, Járay István, Székely Anna. Measuring legislative stability – A new approach with data from Hungary. European Political Science 21, pp. 491–521., 2022
Sebők Miklós, M. Balázs Ágnes, Molnár Csaba. Punctuated Equilibrium and Progressive Friction in Socialist Autocracy, Democracy and Hybrid Regimes. Journal of Public Policy 42(2), pp. 247–269., 2022
Sebők Miklós, Ring Orsolya, Máté Ákos. Szövegbányászat és Mesterséges Intelligencia R-ben. Budapest: Typotex Kiadó, 184 p., 2021
Repozitóriumok:
GitHub – poltextlab/textreuse_ch_hun
GitHub – poltextlab/text_mining_workshop
GitHub – poltextlab/CLARIN_ParlaMint_HU
GitHub – poltextlab/HunMineR: Companion package for the Hungarian text mining textbook
GitHub – poltextlab/tankonyv: Szövegbányászat és mesterséges intelligencia R-ben
GitHub – poltextlab/nyt_hybrid_classification_workflow: Replication material for Sebők, M., Kacsuk, Z., & Máté, Á. (2021). The (real) need for a human touch: testing a human–machine hybrid topic classification workflow on a New York Times corpus. Quality & Quantity, 1–23.
Multilingual comparable corpora of parliamentary debates ParlaMint 2.1
Fontosabb konferenciák:
American Political Science Association (APSA) Political Methodology Specialist Group, Politics and Computational Social Science, Annual COMPTEXT Conference, OPTED Data4Parliaments
Elnyert nemzetközi pályázatok:
OPTED – Observatory for Political Texts in European Democracies (2020–2023) Horizon 2020 Grant Agreement no. 951832.