Megjelent Sebők Miklós és Kacsuk Zoltán tanulmánya a Political Analysis folyóiratben ’ The Multiclass Classification of Newspaper Articles with Machine Learning: The Hybrid Binary Snowball Approach’ címmel.
Rövid összefoglaló:
Sebők Miklós és Kacsuk Zoltán tanulmányukban a tartalomanalízis eszköztárát bővítik egy olyan megoldással, ami az összehasonlító politikatudományban a legnagyobb előszeretettel használt kettős vak kódolás teljesítményét is képes utolérni. A Sebők és Kacsuk által bemutatott megoldás a szövegelemzés kvantitatív megközelítését kombinálja a felügyelt gépi tanulás eszközeivel, így elemezve egy magyar napilap címlapos cikkjeinek szövegét. A kutatás célja, hogy az adathalmazban szereplő elemeket hozzárendelje a Comparative Agendas Project (CAP) kódkönyvének megfelelően, 21 adott közpolitikai téma egyikéhez. A kiegyensúlyozatlan osztályeloszlású témák klasszifikációja egy hibrid bináris hólabda-eljárásra alapuló munkafolyamat mentén történt. A folyamat leegyszerűsíti a többosztályú problémát egy bináris választásra. A végeredmények azt mutatják, hogy ez a megközelítés pontosabb eredményeket tud felmutatni az emberi kódolás általános teljesítményéhez képest, és a legtöbb számítógéppel támogatott kódolási projekthez képest is.
A tanulmány szabadon elérhető az alábbi linken.
Sebők, M. and Kacsuk, Z. (2020) “The Multiclass Classification of Newspaper Articles with Machine Learning: The Hybrid Binary Snowball Approach,” Political Analysis. Cambridge University Press, pp. 1–14. doi: 10.1017/pan.2020.27.