2021. július 14. - Kutatási infrastruktúra társadalomtudományi archívumokhoz – A TK és a SZTAKI közös projektje

A TK MILAB Speaker Series sorozatának előadásában Gárdos Judit (TK KDK, tudományos munkatárs) és Micsik András (SZTAKI, Elosztott Rendszerek Osztály, tudományos főmunkatárs) tartott közös előadást "Társadalomtudományi archívumok és a mesterséges intelligencia. Hogyan segítheti a gépi feldolgozás a kutatást?" címmel. Az előadást Kovács Éva (TK SZI tudományos tanácsadó, a 20. Század Hangja archívum alapítója) moderálta.

 

A szép számú, közel 40 fős hallgatóság megismerkedett a KDK és a SZTAKI közös projektjével, melynek célja a TK KDK kutatási adatgyűjteményére vonatkozó metaadatok gazdagítása informatikai eszközökkel, a gyűjteményekben való tartalmi keresés, feltárás stb. céljából, megalapozandó egy későbbi kutatási adatkezelési komplex infrastruktúra létrehozását. A kutatott anyagot a TK repozitóriumokban tárolt interjúszövegekből válogatták. Az interjúk sokféle kutatási témát öleltek fel, börtönviselt ember reszocializációjától kezdve a biztosítási felügyelet történetén át háborús életútinterjúkig.

Az előfeldolgozás során az interjúkat TEI XML formára konvertálták, mely jó lehetőséget biztosít az anyagok további manuális és gépi feldolgozására. Az interjúk elemzéséhez összegyűjtötték és kipróbálták a legfrissebb magyar és nyelvfüggetlen NLP technológiákat, majd a kiválasztott eszközökkel összeállítottak egy saját feldolgozási láncot. 

Az interjúk tematikus kategorizálásához téma- és tárgyszólelőhelyeket gyűjtöttek. Az európai többnyelvűség és a társadalomtudományi fókusz miatt az ELSST (European Language Social Science Thesaurus) került előtérbe, melynek a projekten belül elkészítették  a magyar fordítását.

A projekt megvalósítás során CESSDA által használt társadalomtudományos, kb. 3300 tételt tartalmazó ELSST tárgyszótezaurusz SZTAKI által készített gépi fordításának kézi lektorálása és javítása történt. Készült egy, kifejezetten a projekthez adaptált szűkebb tárgyszólista a repozitóriumaink szempontjából releváns ELSST szavak kiválogatásával, illetve az ELSST listából hiányzó, a magyar társadalomtudományos kutatások tekintetében alapvető fontosságú fogalmak hozzáadásával. Megkezdődött a 6 (kiválasztott gyűjteményenként 1-1) mintainterjú manuális kódolása, a szövegszakaszok tematikus címkézése, tárgyszavak és tárgymutató generálása, valamint a releváns kategóriák struktúrájának felépítése. A részben kézi kódolással, részben gépi “szüreteléssel” végzett szövegelemzés és -címkézés közvetlen célja gépi tanuláson alapuló klasszifikációs rendszer kidolgozása.