Oksági gépi tanulás: az alapelvektől a datasheet-ig

Az utóbbi évtizedben a társadalomtudományi statisztika két területén zajlottak a statisztika uralkodó paradigmáját megkérdőjelező, jelentős hatást gyakorló kutatások. Egyrészről a strukturális oksági modellezés mutat új utat a társadalomkutatási gyakorlatban, másrészről a mérnöki területeken kidolgozott gépi tanulási eljárások társadalomtudományi alkalmazása forradalmasítja az ökonometriát. A két terület látszólag egymással ellentétes fejlődési utakat jelöl ki a társadalmi adatok elemzői számára.

A strukturális oksági modellek a jelenlegi gyakorlatnál jóval szigorúbb feltételeket szabnak a változók kapcsolatára vonatkozó társadalomelméleti feltevések statisztikai formalizálására vonatkozóan, és a modellezés célja robusztus állítások tétele egyes tényezők közötti oksági kapcsolatokra vonatkozóan. Ezzel szemben a gépi tanulási eljárások – melyek többségének célja a változók összessége alapján való előrejelzés – döntően adatvezérelt technikák, és éppen az elterjedt statisztikai modellekben jellemzően alkalmazott feltevéseket tesznek szükségtelenné.

Valójában az utóbbi öt évben a társadalomtudományi statisztikában a két kutatási irány szorosan összekapcslódott. Egyrészt az üzleti döntéshozatalt segítő, gépi tanulási eljárásokat alkalmazó adatelemzők körében jelentős az igény a döntések (kezelések) hatásának becslésére. Másrészt, a strukturális oksági modellezés mesterséges intelligencia adatvezérelt eljárásainak kritikáiból született; vezető kutatói jelenleg is az MI-kutatás legnagyobb hatású elméleti szakemberei között vannak. A kutatások egyik meghatározó iránya éppen a strukturális oksági modelleket is alkalmazó gépi gondolkodás (machine reasoning) fejlesztése. Továbbá az utóbbi 3–4 évben az oksági gépi tanulás legnagyobb hatású eredményeinek egy jelentős része ökonometriai kutatásokhoz és társadalomtudományi (ill. epidemiológiai) alkalmazásokhoz kötődik. Az új eljárások kidolgozását rengeteg elméleti és gyakorlati vita kíséri. Ezek egyrészt az adat- illetve elméletvezérelt mesterséges intelligencia mérnök kutatói, valamint az oksági gépi tanulás mérnöki és társadalomtudományi háttérrel rendelkező kutatói között zajlanak.

A kutatás célja kettős. Egyrészt a fent említett új kutatási irányok és eljárások, valamint a viták gyökereinek megértése és disszeminálása a TK és a MILAB kutatói között, és a hazai társadalomkutatói közösségben. Másrészt célunk, hogy a TK kutatói közösségének kvantitatív adatelemzéssel foglalkozó tagjai és a MILAB tabuláris adatok prediktív elemzésével foglalkozó kutatói megismerhessék és készségszinten sajátíthassák el a fenti gépi tanulási technikák alapjait. A TK-ban 2020 ősze óta létezik oksági adatelemzési olvasókör. A kutatás első felében ezt folytattuk, a témához kapcsolható partnerek bevonásával és az eredmények disszeminálásával. Gépi tanulási továbbképzést és oksági statisztika előadásokat szerveztünk, továbbá statisztikai elemzésekkel vizsgáltuk azt a kérdést, hogy valóban megbízhatóbban becsülhetjük-e különböző kezelések hatását az új eljárásokkal, mint a hagyományos regressziós technikákkal.

Az oksági gépi tanulással foglalkozó részprojektünkben egy adatgeneráló programot dolgoztunk ki. A projektünk következő munkaszakaszának célja egy társadalomtudományi és üzleti feladatokra optimalizált, később szolgáltatásként üzemeltethető Datasheet eszköz demo-verziójának kifejlesztése, amely oksági elemzések előtt ad segítséget kutatók és üzleti adatelemzők számára. A Datasheet a konkrét valós adatbázis tulajdonságai és a kutatói feltevések alapján generál szintetikus adatokat, és közli a különböző elemzési alternatívák tulajdonságait. A szoftver jövőbeni adatfelvételek tervezését is segítheti.

Eredményeink között megtalálható egy szabadon felhasználható, nyílt forráskódú rugalmas adatgeneráló algoritmus – önálló, módszer-tesztelő elemzésekhez és datasheeet építéséhez; egy bevezető kurzusanyag (annotált kódok) gépi tanuláshoz társadalomtudósoknak; kölcsönös segítségnyújtáson alapuló együttműködés külső vállalati partnerrel innovációban valamint tanácsadás a Retail4, hazai középvállalkozás által kifejlesztett kereskedelmi üzleti információs szoftver oksági adatelemzés moduljának létrehozásában.

 

Résztvevő kutatók:
Buda Jakab
Hajdu Gábor
Janky Béla
Szeitl Blanka
Thamó Emese

 

Kulcsszavak: oksági gépi tanulás, strukturális kauzális modellek, gépi gondolkodás, üzleti és policy döntéstámogatás