A HUN-REN Társadalomtudományi Kutatóközpont poltextLAB szövegbányászati kutatócsoportjának műhelyében készült, Szövegbányászat és mesterséges intelligencia R-ben című tankönyv a kvantitatív szövegelemzési eljárások társadalomtudományi alkalmazásának legfontosabb gyakorlati vonatkozásait mutatja be az olvasóknak. A kötet online elérhető változatát a szerzők – Sebők Miklós, Ring Orsolya és Máté Ákos – rendszeresen újabb kiegészítésekkel bővítik.
A szövegek adatként való értelmezése (text as data) és kvantitatív elemzése, vagyis a szövegbányászat (text mining) a nemzetközi társadalomtudományi kutatások egyik leggyorsabban fejlődő irányzata, és egyben az egyik legnyilvánvalóbb belépési pont e tudományterület művelői számára a mesterséges intelligenciát, ezen belül gépi tanulást alkalmazó kutatások területére.
A korszerű társadalomtudományban használatos kvantitatív szövegelemzési eljárásokat ‒ névelem-felismerés, véleményelemzés, topikmodellezés, szövegek felügyelt tanulásra épülő osztályozása ‒ az egyik leggyakrabban használt programnyelv, az R segítségével mutatják be a szerzők, így a kötet teljesen kezdők számára is ajánlott, anyaga akár minimális programozási ismerettel is elsajátítható. A döntő többségében új, magyar nyelvű korpuszokra épülő példák alapján az olvasók lépésről lépésre megismerhetik a magyar nyelvű kvantitatív szövegelemzés módszereit.
A kötet alapjául szolgáló kutatást, amelyet a Társadalomtudományi Kutatóközpont valósított meg, az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében.