Az alapszintű kurzus két részből áll
- Elméleti-gyakorlati rész (3 x 1,5 óra) során a résztvevők megismerkednek az alapvető szövegbányászati feladatokkal és ezek társadalomtudományi alkalmazásaival. Áttekintő képet kapnak az információ-visszakeresés és az információ-kinyerés eltéréseiről, valamint a szózsák, a névelem-felismerés, az osztályozás, a vélemény- (szentiment-) elemzés, illetve a csoportosítás kérdésköréről. A kurzus az elméleti és módszertani alapok tisztázása mellett néhány példa keretében betekintést nyújt az R/RStudió használatába. Bemeneti követelmény nincs, az alapvető statisztikai, kvantitatív módszertani, valamint programozási ismerek ugyanakkor hasznosak az anyag feldolgozásához.
- Projekt rész (3 x 1,5 óra) részeként segítséget adunk egy kisebb szövegbányászati kutatási projekt megtervezéséhez és megvalósításához. A kutatási tervek olyan alapvető kvantitatív szövegelemzési eljárásokhoz kapcsolódhatnak, mint a szózsák módszer, egyszerű szótár-alapú elemzések, valamint névelemfelismerés. A kurzus során a résztvevők az oktatóval egyeztetett kutatási tervekhez és korpuszokhoz illeszkedően dolgozzák ki a szükséges adatbázisokat és scripteket. A kurzuson a tárgyalt kutatási tervek számától függően az oktatók szimultán foglalkoznak az egyedi projektjeiken dolgozó résztvevőkkel. A részvétel feltétele a bevezető szakasz teljesítése vagy annak ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet kezdő szintű ismerete, illetve előzetes telepítése a résztvevők számítógépén (ehhez az oktatók segítséget nyújtanak).
Alapszintű kurzus tematika:
-
A kvantitatív szövegelemzés és szövegbányászat alapfogalmai
-
Az R és R Studio használata
-
Adatvizualizáció ggplottal
-
Adatimportálás, adatkezelés
-
A korpuszépítés problémái és a szövegelőkészítés
-
Leíró statisztika I: szózsák és szóeloszlások
-
Leíró statisztika II: A szövegek reprezentálása a vektortérben. A dokumentum-kifejezés mátrix. TF-IDF
-
Áttekintés a szövegbányászati módszerekről
-
Egyszerű szótár-alapú elemzések
-
Természetes-nyelv feldolgozás (NLP). Névelem-felismerés
A kurzus során használt tankönyv:
Sebők Miklós - Ring Orsolya – Máté Ákos: Szövegbányászat és mesterséges intelligencia R-ben. Budapest, Typotex, 2021. A könyv online elérhető: https://tankonyv.poltextlab.com/
"Szövegbányászat és Mesterséges Intelligencia" képzési program keretében később meghirdetésre kerülő Haladó kurzus magasabb szinten nyújt bevezetést a fontosabb szövegbányászati és gépi tanulásra épülő technikákba (ennek ezért előfeltétele az alapozó kurzus elvégzése). A képzési program két része együttesen megfelelő alapokat nyújt egyszerűbb önálló kutatási projektek kivitelezésére.
Előadók: Sebők Miklós, Máté Ákos, Ring Orsolya és Járay István Péter