2023. június 15-én tartja a Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) az éves szakmai napját, amely során több alprojekt kutatói, a SZTAKI által koordinált nemzeti labor partnerintézeteinek képviselői, illetve egyéb nemzeti laborok szakértői is tartanak szakmai előadásokat. A SZTAKI-ban tartott, egész napos rendezvény programja a következő:
9:00 – Köszöntők – Chair: Érdi-Krausz Gábor
9:15 – Társ nemzeti laboratóriumok – Chair: Érdi-Krausz Gábor
9:15 – Szócska Miklós, Egészségbiztonság NL: Az Adatvezérelt Egészség Divízió bemutatása, együttműködési lehetőségek
9:30 – Orosz Péter Pál, Infokomm NL: Infokommunikációs és Információtechnológiai Nemzeti Laboratórium bemutatása, MILAB együttműködési lehetőségek
9:45 – Vida Bence, Digitális Örökség NL: Digitális Örökség Nemzeti Laboratórium bemutatása, MILAB együttműködési lehetőségek
10:00 – Chair: Becker Dávid, Semmelweis Egyetem
10:00 – Prof. Becker Dávid, Semmelweis Egyetem, Számítástechnikai és Automatizálási Kutatóintézet, Egészségügy alprojekt: A mesterséges intelligenciával meghatározott biológiai életkor jelentősége az akut koronária szindróma kimenetelére
Az akut myocardialis infarktus súlyossága, és kimenetele számos tényezőtől függ. A korszerű ellátás ellenére a hazai adatok rosszabb rövid- és hosszútávú halálozást mutatnak a hasonló ellátásban részesülő nyugat-európai betegekéhez képest.
Célunk egy prospektív adatbázis felállítása, és ennek segítségével a biológiai kor prognózisra gyakorolt hatásának vizsgálata mesterséges intelligencia segítségével.
Több biológiai kort becslő modalitás kombinálását tűztük ki célul. A biológiai kort fotó, laborparaméterek, valamint pszichológiai- és kognitív funkciókat felmérő kérdőív alapján becsüljük.
A folyamatosan öregedő társadalomban egyre fontosabb szerepet fog játszani életkor, különösképpen a biológiai életkor, aminek akár terápiás konzekvenciái is lehetnek.
10:12 – Dr Kristian Fenech, ELTE - Mesterséges Intelligencia Tanszék, Egészségügy alprojekt: Methods and applications of human characterisation from video
Machine learning provides a powerful tool for human characterisation, which is the process of understanding and describing human traits, behaviors, and interactions. This talk will outline our technological developments in blink detection, precise body pose estimation and composite AI methods for improving pure deep learning approaches. Additionally, we will demonstrate the application of these methods in the evaluation of autism diagnostics tests and physical rehabilitation
10:24 – Viharos Zsolt és Bilicki Vilmos csoportja, EMI / SZTAKI /SZTE, Egészségügy alprojekt: Bipolaritás és skizofrénia hajlam/betegség kutatása gépi tanulási módszerekkel
A motoros aktivitás megváltozása az egyik jellemző karakterisztikája és jellemző tünete egyes mentális betegségeknek. Az aktivitásról való információink tehát részét képezhetik a diagnózis alkotásának, illetve az állapotváltozás követésének. Ezen mentális betegségek közé tartozik a skizofrénia és bipoláris zavar is. Ez egy aktívan kutatott terület, ugyanis inkább általánosabb megfogalmazások vannak jelenleg a köztudatban, mint például alvászavar, hosszabb vagy rövidebb alvásciklus, fokozottabb vagy passzívabb aktivitás, de kevés a konkrét karakterisztika, amely segít a döntésben, vagy akár csoportok elkülönítésében. Ugyanakkor a pontosabb ismeretek segíthetnének a gyorsabb diagnózisalkotásban, a kezelések kiválasztásában, azaz a jobb betegellátásban. A karakterisztikák kereséséhez, azonosításához két feature szelekciós eljárást is segítségül hívtunk.
Korábbi kutatásunkban skizofréniára és bipoláris zavarra hajlamos egyéneket vizsgáltunk kontroll csoporttal összevetve. A két betegségre hajlamos csoport fontosnak azonosított feature-ekben elkülöníthető volt a kontrolloktól, sőt egyes esetekben egymástól is.
Ebben a kutatásban a két betegségre hajlamos, illetve a már betegséggel rendelkező alanyok adatait hasonlítjuk össze két módszer segítségével. Ezek az AHSF (Adaptive, Hybrid Feature Selection) algoritmus és a CFFS (Click Forming Feature Selection).
A két módszer igen különböző elveken alapszik, viszont az algoritmusokba beépített Shapely értékek számítása alapján össze tudjuk hasonlítani őket.
A módszerek alkalmazásával kiválaszthatjuk a legfontosabb feature-eket, amelyek segíthetnek a betegségek azonosításában, esetlegesen a súlyosságának megállapításában. Valamint a különböző módszerek segítségével kapott eredmények összevetésével átfogó képet kapunk a legfontosabb feature-ekről, melyeket az aktivitás idősor adatokból származtatunk
10:36 – Buncsics Bence, BME, Egészségügy alprojekt: Engineering multivalent protein-protein interactions
Multivalent protein research involves the study of proteins that have numerous binding sites, enriching their capacity for interactions. This crucial understanding aids in the realm of drug development, as comprehending these complex interactions can steer us towards creating treatments that are more focused and effective. AI, known for its capability to simulate intricate interactions, manage diverse data, and make predictive models, plays an instrumental role in this scenario. By merging the strengths of multivalent protein research and AI, we're accelerating the research process, enabling us to more rapidly translate scientific discoveries into real-world applications - from developing potent new drugs to refining diagnostic tools and advancing our overall understanding of human health.
10:48 – Dudás Bence, ELTE, Egészségügy alprojekt: Proton tomográfia
Multivalent protein research involves the study of proteins that have numerous binding sites, enriching their capacity for interactions. This crucial understanding aids in the realm of drug development, as comprehending these complex interactions can steer us towards creating treatments that are more focused and effective. AI, known for its capability to simulate intricate interactions, manage diverse data, and make predictive models, plays an instrumental role in this scenario. By merging the strengths of multivalent protein research and AI, we're accelerating the research process, enabling us to more rapidly translate scientific discoveries into real-world applications - from developing potent new drugs to refining diagnostic tools and advancing our overall understanding of human health.
11:00 – Kávészünet
11:30 – Chair: Levendovszky János
11:30 – Levendovszky János, BME, Szenzor alprojekt: Összefoglaló a műegyetemi mesterséges intelligencia kutatásokról
A BME-n folyó kutatások rövid áttekintése, különös tekintettel ezek ipari az alkalmazásaira
• a kommunikációs technológiák,
• IoT adatgyűjtés és feldolgozás
• Okos vízek
• gyógyszergyártés
• gépi látás
• adatbiztonság
területein.
11:45 – Mihajlik Péter, BME, NLP alprojekt: Spontán magyar nyelvű beszéd leiratozása felügyelt, önfelügyelt és gyengén felügyelt neurális technikákkal
A spontán, laza artikulációjú beszéd a mai napig jelentős kihívás elé állítja a gépi (és emberi) leiratozókat. Megvizsgáljuk, hogy a legújabb többnyelvű és nyelvek közötti transfer-learning megoldások milyen mértékben járulnak hozzá a beszédfelismerési pontosság javulásához. End-to-end neurális megközelítést alkalmazunk - ezen belül Conformer és Transformer architektúrákat - felügyelt, önfelügyelt vagy gyengén felügyelt előtanítás + finomhangolás mellett. Az NVidia (Conformer), a META (wav2vec2) és az OpenAI (Whisper) publikus előtanított modelljeit tanítjuk tovább, majd értékeljük ki. A kísérleteket a BEA-Base valamint a CommonVoice adatbázisokon végezzük - fókuszban a spontán beszéddel, kontrasztba állítva az olvasott beszéden mért eredményekkel. Következtetésünk, hogy az előtanítási adatok minősége és összetétele kritikus fontosságú, az (elő)tanítóadat mérete vagy a modell paraméterszáma önmagában nem predikálja jól a várható leiratozási pontosságot.
12:00 – Ónozó Livia Réka, BME, NLP alprojekt: Magyar híroldalak gazdasági szövegeinek szentiment elemzése
Az előadás természetes nyelvfeldolgozás segítségével gazdasági hírekből számított szentiment és makrogazdasági mutatók közötti összefüggéseket kereső kutatást mutatja be. Több mint 25 év, közel 700.000 magyar nyelvű híréből először a gazdasági témájú híreket választottuk ki. Ezt követően egy kisebb, gazdasági szentimens (hangulat) adatbázist készítettünk hármas konszenzus címkézéssel. Az így kialakított adatbázissal különböző nyelvi modelleket tanítottunk be, illetve teszteltünk. Ezt követően a betanított modellekkel a rendelkezésre álló magyar nyelvű gazdasági hírek hangulatát becsültük, és havi szinten aggregáltuk. Az így kialakított szentimens idősorokat makrogazdasági mutatókkal (többek között GDP és BMI) vetettük össze. Az előadás során az egyes lépéseket és a kapcsolódó eredményeinket mutatjuk be.
12:15 – Horváth Gábor, BME, Alapkutatás alprojekt: Explicit solution of the Isolation Forest
Due to its simplicity and robustness, Isolation Forest is one of the most popular algorithms for detecting outliers in data. In this work, we present an explicit solution for the isolation scores obtained with infinitely many trees in the one-dimensional case. Besides the computational benefits, the new results also provide interesting insights into the scores returned by Isolation Forest.
12:30 – Ságodi Zoltán és Ferenc Rudolf, SZTE, Biztonság alprojekt: ChatGPT a szoftverfejlesztésben
Mi a ChatGPT, hogyan lehet használni a szoftverfejlesztésben.
Kód szintézis: Hogyan kérjünk kódot? Milyen a generált kód (minőség, sérülékenység, fejlesztői vélemények).
Kód javítás: Prompting technikák, hogyan kérhetünk kódjavítást. Milyen eredményeket ad, milyen hibákat tud javítani.
12:45 – Sándor József, BME, Biztonság alprojekt: Increasing the Robustness of a Machine Learning-based IoT Malware Detection Method with Adversarial Training
We study the robustness of SIMBIoTA-ML, a recently proposed machine learning-based IoT malware detection solution against adversarial samples. First, we propose two adversarial sample creation strategies that modify existing malware binaries by appending extra bytes to them such that those extra bytes are never executed, but they make the modified samples dissimilar to the original ones. We show that SIMBIoTA-ML is robust against the first strategy, but it can be misled by the second one. To overcome this problem, we propose to use adversarial training, i.e., to extend the training set of SIMBIoTA-ML with samples that are crafted by using the adversarial evasion strategies. We measure the detection accuracy of SIMBIoTA-ML trained on such an extended training set and show that it remains high both for the original malware samples and for the adversarial samples.
13:00 – Ebédszünet
14:00 – Chair: Farkas Richárd
14:00 – Farkas Richárd és Szántó Zsolt, SZTE, NLP alprojekt: Retrieaval-augmented Question Answering
Célunk egy magyar Wikipedia felett működő nagyon magas pontosságú absztraktív kérdés-megválaszoló rendszer fejlesztése. A magas pontosság, mint elsődleges szempont tartása miatt nem használhatjuk a generatív LLMeket, hanem helyette vector-alapú és fine-tuneolható retrieverek és a visszaadott releváns kontextusokra kényszerített LLMek oldják meg a feladatot. Röviden bemutatjuk első eredményeinket a MILQA adatbázison kiértékelve.
14:12 – Sebők-Ring-Máté-Kovács, TK, NLP alprojekt: Large Language Models as the Last Frontier for Classification in Comparative Politics? The Cap Babel Machine as a Blueprint for Practical Research (Miklós Sebők, Ákos Máté, Orsolya Ring, Viktor Kovács)
The CAP Babel Machine is a natural language processing tool designed to simplify and speed up research projects for comparative policy agendas scholars. The methodology behind the tool is based on the Comparative Agendas Project (CAP) coding systems and Large Language Models (LLMs – such as BERT and RoBERTa) to provide an efficient, reliable, and inexpensive alternative to manual coding in different languages and domains. The pipeline allows for the self-service upload of data, which triggers the respective fine-tuned CAP classification model after an initial, automated quality check. With a careful choice of fine-tuning data we can achieve state-of-the-art results for classifying text into policy categories using a multilingual model (XLM-RoBERTa). Our results show a significant performance improvement when the model is fine-tuned using a single language subset instead of aggregated data. In addition, we also observed differences between domains for the same language. However, by carefully choosing the fine-tuning data, we can achieve the best results in classifying texts into policy categories using our solution. Although most language-domain pairs are relatively small (< 30%) in the training data, across 22 categories, 10 languages and 6 domains the weighted macro F1 is in most cases between 0.71 and 0.85, in some cases above 0.9. We argue that the research design and technical blueprint provided by the presentation can be applied to alternative classification problems.
14:24 – Lakatos Dorina, SZTAKI, NLP alprojekt: The Neural Machine Translation project in MILAB
14:36 – Terjék Dávid, Rényi Intézet, Alapkutatás alprojekt: Túlparaméterezett tanulás
Röviden bemutatjuk a Rényi Intézet AI csoportjának jelenleg zajló kutatásait a túlparaméterezett tanulás, momentum tanulás, illetve linear mode connectivity témakörökben.
15:00 – Jelasity Márk, SZTE: Robusztus belső reprezentaciók funkcionális hasonlósága
A neuronhálók belső reprezentációi hasonlóságának a vizsgálatára az utóbbi időben több módszert is javasoltak, amelyek közül az egyik ígéretes technika a modellek "varrhatósága", amit többek között a MILAB projektben Csiszárik Adrián és társai javasoltak (NeurIPS 2021). Erre a módszertanra építve próbáljuk ellenőrizni azt a viszonylag homályosan megfogalmazott, de általánosan igaznak gondolt hipotézist, amely szerint a robusztus hálóknak "másmilyen" reprezentációi vannak mint a nem-robusztus hálóknak. Azt találjuk, hogy igen is meg nem is. A helyzet elég összetett, és számos érdekes észrevételt tehetünk a varrás különböző eseteiben, amelyeket megpróbálunk valamennyire keretbe foglalni.
15:12 – Boros Dániel, ELTE matematikai csoport, Alapkutatás alprojekt: Sztochasztikus folyamatok paraméterbecslése neurális hálózatokkal
A pénzügyi eszközök árának függősége összetett, időfüggő és véletlenszerű. A pénzügyi modellezés klasszikus kereteiből kilépve, e sajátosságokat is figyelembevevő modellekben használják pl. a frakcionális Brown, ill. Ornstein-Uhlenbeck folyamatokat. Esetükben az egyik fontos feladat a folyamat memóriáját leíró paraméter becslése. Ezek becslése a szokásos statisztikai eszköztáron belül legtöbbször csak összetett, alkalmazásokhoz nem elég gyors algoritmusokkal oldható meg, ezért indokolt alternatív megközelítést alkalmazni. Megoldva az ilyen folyamatok széles osztályának hatékony generálását neurális hálókat alkalmaztunk a paraméterbecslésekre, jelentősen megjavítva és felgyorsítva az eddig elérhető módszereket.
15:24 – Kávészünet
15:48 – Chair: Benczúr András
15:48 – Csáji Balázs Csanád, SZTAKI, Egészségügy / Alapkutatás alprojektek: CAR-T sejt alapú immunterápiák erőforrás elosztásának optimalizálása megerősítéses tanulással
A CAR-T sejt terápia egy modern, személyre-szabott módszer hematológiai betegségek - pl., leukémia - kezelésére. Az ilyen terápiák jelenleg sok manuális beavatkozást és külső erőforrások bevonását igénylik, ezért rendkívül drágák. Az AIDPATH H2020 projekt egy kórházakba telepíthető bioreaktor megalkotását tűzte ki célul, valamint azt, hogy mesterséges intelligencia módszerekkel javítja a kezelés különböző fázisait. Az előadás az immunterápia erőforrás elosztásának optimalizálását mutatja be, amire megerősítéses tanulást használunk, a korházi környezet szimulációs modelljére építve.
16:00 – Tamás Ambrus, SZTAKI, Alapkutatás alprojekt: Feltételes kernel átlag beágyazások rekurzív becslése
A felügyelt tanulásban klasszikus probléma, hogy a kimeneti változók magyarázó változókra vett feltételes eloszlását becsüljük. Ezt a feladatot a kernel átlag beágyazás segítségével egy speciális Hilbert térbeli regressziós feladatra lehet visszavezetni, ahol az ún. feltételes kernel átlag függvényt kell megbecsülni. Az előadás célja erre a feladatra egy új, rekurzív, eloszlás-független, konzisztens becslés bemutatása
16:12 – Yayha Ibrahim, SZTAKI, Gépi látás alprojekt: MVPCC-Net: Multi-View Based Point cloud Completion Network for MLS Data
In this talk, we introduce a novel multi view-based method for completing high-resolution 3D point clouds of partial object shapes obtained by mobile laser scanning (MLS) platforms. Our approach estimates both the geometry and color cues of the missing or incomplete object segments, by projecting the 3D input point cloud by multiple virtual cameras, and performing 2D inpainting in the image domains of the different views. In contrast to existing state-of-the-art methods, our method can generate point clouds consisting of a variable number of points, depending on the detailedness of the input measurement, which property highly facilitates the efficient processing of MLS data with inhomogeneous point density. For training and quantitative evaluation of the proposed method, we provide a new point cloud dataset that consists of both synthetic point clouds of four different street objects with accurate ground truth, and real MLS measurements of partially or fully scanned vehicles. The quantitative and qualitative experiments on the provided dataset demonstrate that our method surpasses state-of-the-art approaches in reconstructing the local fine geometric structures as well as in estimating the overall shape and color pattern of the objects.
16:24 – Zováthi Örkény, SZTAKI, Gépi látás alprojekt: ST-DepthNet: A spatio-temporal deep network for depth completion using a single non-repetitive circular scanning Lidar
In this talk, we introduce a novel depth image completion technique based on sparse consecutive measurements of a non-repetitive circular scanning (NRCS) Lidar, demonstrating the capabilities of a new, compact, and accessible sensor technology for dense range mapping of highly dynamic scenes. Our deep network called ST-DepthNet is composed of a spatio-temporally (ST) extended U-Net architecture, which accepts a very sparse range data sequence as input and produces a dense depth image stream of the same field-of-view ensuring a high level of spatial details and accuracy. For evaluation, we have constructed a new urban dataset, that - to our best knowledge as the first open Benchmark in this field - comprises various simulated and real-world NRCS Lidar data samples, allowing us to simultaneously train our model on synthetic data with Ground Truth, and to validate the result via real NRCS Lidar measurements. Using this new dataset, we have shown the superiority of our method against a densified depth map obtained from the raw sensor stream, and against two independent state-of-the-art deep-learning based Lidar-only depth completion methods.
16:36 – Chang Liu, SZTAKI, Gépi látás alprojekt: Active Wildfires Detection and Dynamic Escape Routes Planning for Humans through Cooperation between Drones and Satellites
Z UAVs are playing an increasingly important role in the field of wilderness rescue by virtue of their flexibility. This paper proposes a fusion of UAV vision technology and satellite image analysis technology for active wildfires detection and road networks extraction of wildfire areas and real-time dynamic escape route planning for people in distress. Firstly, the fire source location and the segmentation of smoke and flames are targeted based on Sentinel 2 satellite imagery. Secondly, the road segmentation and the road condition assessment are performed by D-linkNet and NDVI values in the central area of the fire source by UAV. Finally, the dynamic optimal route planning for humans in real time is performed by the weighted A star algorithm in the road network with the dynamic fire spread model. Taking the Chongqing wildfire on August 24, 2022, as a case study, the results demonstrate that the dynamic escape route planning algorithm can provide an optimal real-time navigation path for humans in the presence of fire through the cooperation of UAVs and satellites.
16:48 – Horváth Dániel, SZTAKI, Szenzor alprojekt: Megerősítéses tanulás alkalmazása automatizált robot programozásban
A megerősítéses tanítás számos területen ért el kiváló eredményeket, a robotika területén való alkalmazhatósága azonban még korlátozott a folytonos állapot és akció tér, a bemenet magas dimenziója, illetve a sim2real transzformáció nehézsége miatt. Az előadásban az ezen területen végzett kutatásomat mutatom be.
17:00 – Benczúr András, SZTAKI: Zárszó