Gépi szövegelemzés a TK kutatási adatrepozitóriumaiban

Pilot projektünk célja a 20. Század Hangja és a TK Kutatási Dokumentációs Központ (KDK) digitális társadalomtudományos archívumokban őrzött interjús gyűjteményekből vett minta alapján különböző gépi szövegelemzési technikák tesztelése, a legmegfelelőbb technika (technikák) kiválasztása, és az eredmények integrálása a két digitális repozitóriumba. Célunk, hogy az egyes interjúkhoz gépileg hozzárendeljünk olyan metaadatokat, amelyek a kutatók számára információt adnak a szövegek tartalmáról, az egymással (akár több gyűjteményen át) összefüggő, az adott kutatási kérdések szempontjából releváns szövegek, szövegrészek helyéről. A szövegekhez gépi segítséggel tárgymutatót, tárgyszavakat generálunk, azok megfelelőségét a kutatóink ellenőrzik; ez az eljárás aztán a kutatók által utólagosan nem ellenőrzött archivált dokumentumok esetében is jól használható tárgyszavazást, tárgymutatógenerálást eredményez. A pilot projektünkben az interjús gyűjtemények gépi feldolgozása után integráljuk a gépi tartalomelemzés eredményeit a gyűjtemények és az egyes tételek metaadatai közé, valamint az eredményeket vizuálisan bemutatjuk, az egyes témák, kulcssszavak közötti kapcsolatokat is feltárva.

Az interjúkhoz társítani kívánt tárgyszavak (vagy címkék) nem csak egyszerűen a szövegben megtalálható kulcsszavakból vagy azok szinonímáiból állnak össze, hanem hallgatólagos szociológiai jelenségeket, jellemzőket próbálnak detektálni, amely a szentiment-analízishez hasonló megközelítést igényel. Kísérletezni szeretnénk a NER (Named Entity Recognition) és az anonimitás egyidejű megoldásának irányában is. Az eredményül kapott absztrakt tárgyszavakat több új metaadatmezőben társítjuk a dokumentumokhoz, amelyek alapján új kutatások számára lehet a meglévő dokumentumok között kutatási forrást keresni. A tárgyszavakat angolra is lefordítjuk, ezáltal külföldi kutatók számára is megnyílik a lehetőség az egyes kutatási kérdések kapcsán magyar nyelvű források keresésére és újrafelhasználásra, amely a nyelvi korlátok miatt jelenleg Közép-Európában megoldatlan probléma.