TK MILAB Speaker Series - Társadalomtudományi archívumok és a mesterséges intelligencia. Hogyan segítheti a gépi feldolgozás a kutatást?
A Társadalomtudományi Kutatóközpont TK MILAB Speaker Series sorozatának következő állomása 2021. június 17-én 10:30 órától Gárdos Judit (TK KDK, tudományos munkatárs) és Micsik András (SZTAKI, Elosztott Rendszerek Osztály, tudományos főmunkatárs) közös előadása "Társadalomtudományi archívumok és a mesterséges intelligencia. Hogyan segítheti a gépi feldolgozás a kutatást?" címmel. Az előadás moderátora: Kovács Éva (TK SZI tudományos tanácsadó, a 20. Század Hangja archívum alapítója).
A TK - SZTAKI közös projekt célja a TK KDK kutatási adatgyűjteményére vonatkozó metaadatok gazdagítása informatikai eszközökkel, a gyűjteményekben való tartalmi keresés, feltárás stb. céljából, megalapozandó egy későbbi kutatási adatkezelési komplex infrastruktúra létrehozását.
A kutatott anyagot a TK repozitóriumokban tárolt interjúszövegekből válogattuk. Az interjúk sokféle kutatási témát öleltek fel, börtönviselt ember reszocializációjától kezdve a biztosítási felügyelet történetén át háborús életútinterjúkig.
Az előfeldolgozás során az interjúkat TEI XML formára konvertáltuk, mely jó lehetőséget biztosít az anyagok további manuális és gépi feldolgozására. Az interjúk elemzéséhez összegyűjtöttük és kipróbáltuk a legfrissebb magyar és nyelvfüggetlen NLP technológiákat, majd a kiválasztott eszközökkel összeállítottunk egy saját feldolgozási láncot.
Az interjúk tematikus kategorizálásához téma- és tárgyszólelőhelyeket gyűjtöttünk. Az európai többnyelvűség és a társadalomtudományi fókusz miatt az ELSST (European Language Social Science Thesaurus) került előtérbe, melynek a projekten belül elkészítettük a magyar fordítását.