Oksági gépi tanulás: lehetőségek, korlátok és társadalomtudományi alkalmazások

Az utóbbi évtizedben a társadalomtudományi statisztika két területén zajlottak a statisztika uralkodó paradigmáját megkérdőjelező, és már most jelentős hatást gyakorló kutatások. Egyrészről a strukturális oksági modellezés mutat új utat a társadalomkutatási gyakorlatban (Morgan & Winship 2015). Másrészről a mérnöki területeken kidolgozott gépi tanulási eljárások társadalomtudományi alkalmazása forradalmasítja az ökonometriát (Athey & Imbens 2019). A két kutatási terület látszólag egymással ellentétes fejlődési utakat jelöl ki a társadalmi adatok elemzői számára. Ugyanis a strukturális oksági modellek a jelenlegi gyakorlatnál jóval szigorúbb feltételeket szabnak a változók kapcsolatára vonatkozó társadalomelméleti feltevések a statisztikai formalizálására vonatkozóan. Ezzel szemben a gépi tanulási eljárások döntően adatvezérelt technikák, és éppen az elterjedt statisztikai modellekben jellemzően alkalmazott feltevéseket tesznek szükségtelenné. A strukturális oksági modellezés célja, hogy robusztus állításokat lehessen tenni egyes tényezők közötti oksági kapcsolatokra vonatkozóan. A legtöbb gépi tanulási eljárás célja az előrejelzés – a változók összessége alapján. Valójában az utóbbi öt évben a társadalomtudományi statisztikában (elsősorban az ökonometriában) a két kutatási irány szorosan összekapcsolódott. Egyrészt az üzleti döntéshozatalt segítő, gépi tanulási eljárásokat alkalmazó adatelemzők körében jelentős az igény a döntések (kezelések) hatásának becslésére (Hünermund et al 2021). Másrészt, a strukturális oksági modellezés mesterséges intelligencia adatvezérelt eljárásainak kritikáiból született; vezető kutatói jelenleg is a mesterséges intelligencia kutatás legnagyobb hatású elméleti szakemberei között vannak (Pl. Bottou 2014, Pearl & Mackenzie 2018, Schölkopf 2019). A mesterséges intelligencia-kutatások egyik meghatározó iránya éppen a strukturális oksági modelleket is alkalmazó gépi gondolkodás (machine reasoning) fejlesztése. Továbbá az utóbbi 3-4 évben az oksági gépi tanulás legnagyobb hatású eredményeinek egy jelentős része ökonometriai kutatásokhoz (Chernozhukov et al 2018, Wager & Athey 2018) és társadalomtudományi (ill. epidemiológiai) alkalmazásokhoz kötődik (Chernozhukov et al 2020, Richens et al. 2020). Látni kell ugyanakkor, hogy az új eljárások kidolgozását rengeteg elméleti és gyakorlati vita kíséri. Éles és izgalmas viták zajlanak egyrészt az adat- illetve elméletvezérelt mesterséges intelligencia mérnök kutatói között. Másrészt hasonlóan éles viták zajlanak az oksági gépi tanulás mérnöki illetve társadalomtudományi hátérrel rendelkező kutatói között. A kutatás célja kettős. Egyrészt a fent említett új kutatási irányok és eljárások valamint a viták gyökereinek megértése és disszrminálása a TK és a MILAB kutatói között továbbá a hazai társadalomkutatói közösségben. Ez azért fontos, mert a fent idézett kutatási irányok hazai recepciója jóval gyengébb mint például az új szövegeanalaitikai eljárásoké. Másrészt célunk, hogy a TK kutatói közösségének kvantitatív adatelemzéssel foglalkozó tagjai megismerhessék, és készségszinten sajátíthassák el a fenti gépi tanulási technikák alapjait, miközben a MILAB tabuláris adatok prediktív elemzésével foglalkozó kutatói (pl. MILAB-on belül ilyen lehet BME sztochasztika tanszékén Molontay Roland és munkatársai, stb.) is megismerkedjenek az elméletvezérelt gépi tanulási eljárások alapelveivel. Ennek részeként vállaljuk, hogy a projekt második felében összehasonlító elemzéseket végzünk hagyományos és oksági gépi tanulásos eljárások társadalmi problémákra történő alkalmazására. A TK-ban 2020 ősze óta létezik (Susányszky Pál inkubátor-programjánakkeretében) egy oksági adatelemzés olvasókör (Hajdu G., Janky B., Keller T., Kisfalusi D., Susánszky P. & külső vendégek). A célunk ennek folytatása, a témához kapcsolható MILAB partnerek bevonása,és az eredmények disszeminálása. A MILAB együttműködés elősegítéséhez egy pre-dok vagy posztdok adattudós részállást hirdetnénk meg, így kapcsolva a csoporthoz az adattudósi tudáskészletet. Preferálnánk a kapcsolódó kutatáskban résztvevő MILAB partner (pl BME Sztochasztika tsz) doktoranduszát vagy posztdoktorát, ezzel is bekapcsolva saját elemzői és disszeminációs tevékenységünket a MILAB partnerekhez.

Kulcsszavak: oksági gépi tanulás, strukturális kauzális modellek, gépi gondolkodás, üzleti és policy döntéstámogatás