Szövegbányászat és gépi tanulás R-ben

Szövegbányászat és gépi tanulás R-ben

Elméleti és gyakorlati kurzus a TK PTI POLTEXT Projektje szervezésében

A társadalomtudományi szövegbányászat egyik legelterjedtebb – egyben ingyenesen hozzáférhető – eszköze az R szoftver-környezet. A POLTEXT Projekt (poltext.tk.mta.hu) keretében meghirdetett 2 alkalmas kurzus bevezetést nyújt a társadalomtudományi szövegbányászat elméletébe, illetve az R-ben végrehajtott szövegbányászati és gépi tanulási feladatokba.

A kurzus során a feladatok elvégzéséhez a Hungarian Comparative Agendas Project (cap.tk.mta.hu) korpuszait használjuk. A kurzus elvégzéséhez az R és RStudio ismerete nem előfeltétel. A gyakorlati kurzushoz azonban szükséges, hogy a részvevők a saját gépükre telepített R és RStudioval rendelkezzenek. A telepítésről további információ itt található. Vagy használható az RStudio Cloud (előzetesen regisztrációhoz kötött), ami az alábbi linken érhető el.

Az elméleti kurzus időpontja: 2020. november 3. 9:00-12:15 (2x1,5 óra)

Részvétel: online formában

A résztvevők száma: maximum 15 fő (a jelentkezések sorrendjében)

Tematika:

  1.  Mi a szövegbányászat? A szöveg, mint adat
  2.  A korpusz-készítés és előkészítés problémái
  3.  Szövegreprezentáció és leíró statisztikai elemzések
  4.  Szótár alapú elemzések, érzelem-elemzés (sentiment analysis)
  5.  Klaszter-elemzés és topik modellezés
  6.  Szóbeágyazások
  7.  Osztályozás és felügyelt tanulás
  8.  Skálázás
  9.  Szövegösszehasonlítás

 

A gyakorlati kurzus időpontja: 2020. november 26. 9:00-15:00 (3x1,5 óra, két szünettel)

Helyszíne: Társadalomtudományi Kutatóközpont, 1097 Budapest Tóth Kálmán utca 4.

Részvétel: személyesen (a járványügyi szabályok betartása mellett), saját számítógéppel, vagy online

A gyakorlati kurzuson való részvétel feltétele az elméleti kurzuson való részvétel!

Tematika:

  1. Bevezetés R és az RStudio használatába 
  2. DTM Mátrix
  3. Leíró statisztikák
  4. Szótár-alapú elemzések, érzelem-elemzés (sentiment analysis)
  5. Felügyelet nélküli és felügyelt gépi tanulás

 

A részvétel előzetes regisztrációhoz kötött. A jelentkezések befogadása 15 főig a jelentkezések sorrendjében történik.

Regisztráció: az alábbi linken

A regisztráció határideje: 2020. október 30.

További információ: ring.orsolya@tk.mta.hu