Szövegbányászat és gépi tanulás R-ben (elméleti kurzus)
Elméleti és gyakorlati kurzus a TK PTI POLTEXT Projektje szervezésében
A társadalomtudományi szövegbányászat egyik legelterjedtebb – egyben ingyenesen hozzáférhető – eszköze az R szoftver-környezet. A POLTEXT Projekt (poltext.tk.mta.hu) keretében meghirdetett 2 alkalmas kurzus bevezetést nyújt a társadalomtudományi szövegbányászat elméletébe, illetve az R-ben végrehajtott szövegbányászati és gépi tanulási feladatokba.
A kurzus során a feladatok elvégzéséhez a Hungarian Comparative Agendas Project (cap.tk.mta.hu) korpuszait használjuk. A kurzus elvégzéséhez az R és RStudio ismerete nem előfeltétel. A gyakorlati kurzushoz azonban szükséges, hogy a részvevők a saját gépükre telepített R és RStudioval rendelkezzenek. A telepítésről további információ itt található. Vagy használható az RStudio Cloud (előzetesen regisztrációhoz kötött), ami az alábbilinken érhető el.
Az elméleti kurzus időpontja: 2020. november 3. 9:00-12:15 (2x1,5 óra)
Részvétel: online formában
A résztvevők száma: maximum 15 fő (a jelentkezések sorrendjében)
Tematika:
Mi a szövegbányászat? A szöveg, mint adat
A korpusz-készítés és előkészítés problémái
Szövegreprezentáció és leíró statisztikai elemzések
Szótár alapú elemzések, érzelem-elemzés (sentiment analysis)
Klaszter-elemzés és topik modellezés
Szóbeágyazások
Osztályozás és felügyelt tanulás
Skálázás
Szövegösszehasonlítás
A részvétel előzetes regisztrációhoz kötött. A jelentkezések befogadása 15 főig a jelentkezések sorrendjében történik.