Gépi szövegelemzés a TK kutatási adatrepozitóriumaiban

Pilot projektünk célja a 20. Század Hangja és a TK Kutatási Dokumentációs Központ (KDK) digitális társadalomtudományos archívumokban őrzött interjús gyűjteményekből vett mintán végzett különböző gépi szövegelemzési technikák tesztelésével az archívumokon belüli kereshetőség javítása volt. A projekt a KDK és a SZTAKI Elosztott Rendszerek Osztályának együttműködésében valósult meg. A legmegfelelőbb technika kiválasztása, alkalmazása és validálása után az eredményeket egy repozitóriumi kereső bétaverziójába integráltuk. Végeredményben az egyes interjúkhoz gépileg hozzárendeltünk olyan metaadatokat, amelyek információt adnak a szövegek (interjúk, interjúrészletek) tartalmáról, az egymással (akár több gyűjteményen át) összefüggő, adott kutatási kérdések szempontjából releváns szövegek, szövegrészek helyéről a kutatók számára.

Az interjús szövegekhez előbb manuálisan, majd gépi segítséggel tárgyszavakat, tárgymutatót generáltunk, melyek megfelelőségét kutatóink ellenőrizték. Az eredmények validálása a kutatók által utólagosan nem ellenőrzött, kizárólag gépileg elemzett dokumentumok esetében is jól használható tárgyszavazást, tárgymutató-generálást eredményez. Az interjúkhoz társított tárgyszavak vagy címkék nem egyszerűen a szövegben megtalálható kulcsszavak vagy azok szinonimái, hanem egy nemzetközi társadalomtudományos tezaurusz, az ELSST használatával készült fogalmi háló elemei, melyek révén feltárhatók a szövegekben rejlő szociológiai jelenségek. Emellett lépéseket tettünk a NER (Named Entity Recognition) irányába is. A szövegekben azonosítottunk névelemeket és időmegjelöléseket, majd wikifikáltuk, vagyis Wikidata tudásgráfhoz, illetve Geonames, VIAF, PIM és más névterekhez kapcsoltuk őket.

A jobb kereshetőség érdekében a gépi feldolgozással kapott absztrakt tárgyszavakat és névelemeket több új metaadatmezőben társítjuk a dokumentumokkal. Ezáltal a meglévő dokumentumok új kutatások számára nyílnak meg. A tárgyszavakat angolra is lefordítjuk, így archívumaink külföldi kutatók számára is kereshetővé válnak. Ezáltal a nyelvi elszigeteltség miatt eddig hozzáférhetetlen hazai forrásokat teszünk láthatóvá és elérhetővé a nemzetközi kutatói közösség számára. A gépi feldolgozás eredményeit vizuálisan is bemutatjuk: egyrészt a névelemek kiemelésével és szócikkekhez kapcsolásával, másrészt feltárva és megjelenítve az egyes témák, tárgyszavak gyakoriságát és a közöttük lévő kapcsolatokat.

A projekt kapcsán csatlakoztunk a CESSDA (Consortium of European Social Science Data Archives) munkájához. Az együttműködés során a Nyelvtudományi Kutatóközponttal (NYTK) való kooperációban elkészült az ELSST több mint 3300 kifejezést tartalmazó, angol nyelvű társadalomtudományos tezaurusz magyar fordítása, amely 2022. szeptembere óta online is elérhető. Projektünkben továbbá együttműködtünk a BME-vel, hogy a BEAST (BEA – mint BEszéltnyelvi Adatbázis – Speech Transcriber) magyar beszédleiratozó szoftver hatásfokát növeljük. A BEAST OTKA és MILAB támogatással, a NYTK és a BME kooperációjával készülő, nyílt forráskódú, kutatási célokra szabadon használható rendszer, a SpeechBrain kódjára épül, és a legmodernebb transzformer neurális struktúrákat használja. A szociológiai források iránt érdeklődő kutatók számára az interjús dokumentumokat feltáró munkánk eredménye a TK KDK repozitóriumai számára készülő közös online keresőfelületen lesz látható.

 

Résztvevő kutatók:
Annus Szabolcs
Antal Emese
Egyed-Gergely Júlia
Filep Georgina
Gárdos Judit
Havadi Gergő
Horváth Anna
Jakab Miklós
Lipp Veronika
Matyasovszky-Németh Márton
Meiszterics Enikő
Neményi Mária
P. Tóth Tamás
Sass Bálint
Szöllősi Melinda
Vajda Róza

 

Publikáció:
Egyed-Gergely Júlia, Vajda Róza, Gárdos Judit, Horváth Anna, Meiszterics Enikő, Micsik András, Martin Dániel, Marx Attila, Pataki Balázs, Siket Melinda. Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok. In: Tick, József; Kokas, Károly; Holl, András (szerk.) Valós térben - az online térért: Networkshop 31: országos konferencia. 2022. április 20–22. Debreceni Egyetem. Budapest, Magyarország, HUNGARNET Egyesület, MTA Könyvtár és Információs Központ, 364 p. pp. 161–169., 2022

 

Konferencia-előadások:
Egyed-Gergely Júlia, Micsik András, Vajda Róza: Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok - előadás, Networkshop 31: országos konferencia, 2022.04.20–22.
FAIRsFAIR (EOSC alprojekt) Final Event. The National Perspective, online kerekasztal-beszélgetés, Gárdos Judit, 2022.01.26.