A rendezvény előadásdiái elérhetők itt, az előadásokról készült videók megtekinthetők itt.
A MILAB a Képfeldolgozók és Alakfelismerők Társasága együttműködésében szakmai napot tart június 19-én a HUN-REN SZTAKI Kende utca 13-17 alagsori tanácstermében.
A részvétel regisztrációhoz kötött, regisztrációs linket a MILAB eseményekre feliratkozottaknak küldünk, feliratkozás:
https://limesurvey.sztaki.hu/index.php?r=survey/index&sid=976865
Az előzetes program lent található, a változtatás jogát fenntartjuk.
A rendezvény nyelve angol.
9:00 - Szabolcs Szolnoki, Ministry of Economic Development: Welcome address
9:10 - Bence Tóth, National Research, Innovation and Development Office: Welcome address
9:20 - András Benczúr, MILAB: Welcome address
9:30 - Dr. Józsa Csaba, NOKIA: NeRF hálózatok célzott támadása
A neurális sugárzási mezők (NeRF-ek) hatékony eszközök a 3D-s jelenetek megjelenítéséhez, valósághű és interaktív jelenet-rekonstrukciókat lehetővé téve. Használatuk viszonylag széleskörű. Azonban kritikus alkalmazásokban felmerül támadhatóságuk, mint biztonsági szempont. Bemutatjuk, hogy jelenlegi állapotukban az általánosított NeRF-ek viszonylag védtelenek különböző támadási módokkal szemben. Egy további esetben megmutatjuk, hogyan vehető rá egy NeRF hallucinációra viszonylag kis ráfordítással, rávilágítva annak szükségességére, hogy biztonsági szempontból további fejlesztésekre van szükség eme technológia kapcsán.
9:45 - Bíró Attila, IT ware: Machine vision case studies from geo-distributed collabs and sports
10:00 - Salló György, Qamcom: Napelemek hibadetektálása drónok és gépi látás segítségével.
Napelem modulok meghibásodása jelentős termelés- és jövedelemkiesést okoz az üzemeltetőknek. A hibás modulokat drónokról készített RGB- és hőképek alapján gépi látásos módszerekkel meg lehet találni, sőt a kiesett jövedelmet is fel lehet becsülni. Az erre kidolgozott módszerünket mutatjuk be.
10:15 - Barankai Norbert, Kincsinfo: Nyugdíjrekord digitalizáció
10:30 - Kovács Gábor, HUN-REN Rényi Alfréd Matematikai Kutatóintézet, Mesterséges Intelligencia kutatócsoport: Mesterséges intelligencia a levéltárakban: képfeldolgozási módszerekkel javított optikai karakterfelismerés
Projektjeink célja a hazai levéltárak (ÁBTL, MNL, BFL) folyamatainak támogatása és automatizálása mesterséges intelligencia (MI) alkalmazásával. A legújabb MI fejlesztések, különösen a nagy nyelvi modellek (LLM) segítségével hatékonyabbá tehetők a korábban lassabb, emberi beavatkozást igénylő folyamatok. Célunk olyan új módszerek bevezetése, mint az érzékeny információk automatikus kitakarása és egy digitális történész alkalmazás kifejlesztése, amely összetett információk (összefüggések) keresésére és feltárására képes. Azonban ezekhez az előremutató feladatokhoz elengedhetetlen a jelenleg alkalmazott optikai karakterfelismerő (OCR) rendszerek javítása, ami különösen nagy kihívást jelent az adathalmazokban található, gyakran erősen degradált dokumentumok esetén. Előadásunk bemutatja azt a képfeldolgozáson alapuló keretrendszerünket, amely a levéltári dokumentumok képminőségének javítására szolgál. Az így tisztított dokumentumok hatékonyabban dolgozhatók fel meglévő OCR rendszerekkel (ABBYY, Tesseract). További célunk egy MI-alapú end-to-end OCR modell létrehozása a feldolgozási sebesség és minőség javítása érdekében.
10:45 - Kávészünet
11:15 - Benkő Bea, HUN-REN SZTAKI
11:30 - TBC SZTE, TBC
11:45 - Kalapos András, BME, TMIT, SmartLabs: Whitening Consistently Improves Self-Supervised Learning
Self-supervised learning (SSL) has been shown to be a powerful approach for learning visual representations. It allows for learning high-quality representations from unlabelled data, which can be transferred to a wide range of downstream tasks. In this study, we propose to introduce ZCA whitening as the last layer of the encoder in self-supervised learning to improve the quality of the learned features. We show that this simple addition improves performance for a variety of SSL methods across multiple encoder architectures and datasets. Our experiments show that whitening is capable of improving linear and k-NN probing accuracy by 1-5%. Additionally, we propose metrics that allow for a comprehensive analysis of the learned features, provide insights into the quality of the representations and help identify collapse patterns.
12:00 - Kelen Domokos, HUN-REN SZTAKI: Automatic Root Cause Analysis using Asymmetric Shapley Values
Root cause analysis (RCA) is essential for identifying the underlying reasons for problems or failures in various systems. Automated RCA uses advanced algorithms to quickly and accurately determine these root causes, assisting both automated processes and human operators in diagnosing issues. In this presentation, I will discuss our collaboration with Ericsson on automated RCA, employing Asymmetric Shapley Values (ASV). ASV is an extension of the popular SHAP (SHapley Additive exPlanations) framework, designed to handle the complexities of real-world problems where variables have causal relationships that classic SHAP cannot account for. ASV enhances the SHAP framework by incorporating known causal relations, providing more accurate and relevant explanations. Our research has developed a practical methodology for calculating conditional ASV, ensuring that the explanations are theoretically correct under certain conditions. This approach significantly improves the reliability of ASV explanations, making it a valuable tool for identifying root causes in complex systems.
12:15 - Kovács Viktor, Bánóczy Martin, HUN-REN TK, poltextLAB: Nagy nyelvi modellek finomhangolásának optimalizálása
12:30 - Ebédszünet
13:30 - László Czúni, Richárd Rádli, Zsolt Vörösházi, University of Pannonia: Veszprém Problems and solutions for fast adaptation in visual object classification
The presentation aims to discuss some major problems in the application of deep neural models for visual classification tasks. Our focus is on such solutions which can be useful in case of few-shot learning with fast adaptation abilities. In our presentation we show two approaches: the usage of fast-learning randomized networks and metric learning. In the first case the deepening of shallow randomized learning models is presented, while for metrics learning a method for the usage of high-level visual or textual cues are proposed to improve precision of the models.
13:50 - Hirling Dominik, Horváth Péter, SZBK: Down the Rabbit Hole: Segmentation Metric Misinterpretations in Bioimage Analysis
In today's scientific environment, with an increasing attention on AI solutions for imaging problems, a plethora of new image segmentation and object detection methods emerge. Thus, quantitative evaluation is crucial for an objective assessment of algorithms. Often, object detection and segmentation tasks utilize evaluation metrics with the same name, but a different meaning due to the differences between object-level and pixel-level classification or just because multiple interpretations coexist. One could argue that in most cases, the meaning should be clear from the context, however, specific and often non-detailed characteristics of the circumstances (e.g. small variations of the task) can make it hard for the readers to understand the exact meaning of different metrics. My presentation is focusing on the various interpretations that have emerged in the research communities related to some segmentation scores. As such, we could identify 5 different definitions for the “average precision (AP)”, and 6 different interpretations for the “mean average precision (mAP)” metrics in the literature. To make things even more complicated, even when some methods work with the same dataset, the metrics used for the evaluation of performance are not necessarily the same. The aims of my presentation are to shed light on some of the main issues with the current state of segmentation and object detection metrics, and to investigate the reasons for the ambiguous use of classification concepts. I’m also going to point out the problems of using similar metrics with nuanced differences by evaluating the 2018 Data Science Bowl (DSB) and 2021 Sartorius neuron segmentation challenge submissions with metrics of similar meaning but slightly differing interpretations.
14:10 - Szirányi Tamás, Golarits Marcell HUN-REN SZTAKI: 2D és 3D kép/videó/pontfelhő minőségének becslése
Kép/videó minőség becslése mélytanulással, és az ehhez tartozó adatkészlet generálása: a mélytanulási módszerek jelenleg nehezen alkalmazhatóak a képminőség értékeléséhez (IQA) a meglévő adathalmazok kis mérete miatt. A kiterjedt adathalmazok generálása megfelelő annotációval jelentős erőforrásokat igényel. Részt vettünk a KonIQ-10k létrehozásában, ami az eddigi legnagyobb IQA-adatbázist, 10 073 annotált képet tartalmaz. A KonIQ-10k crowdsourcing segítségével készült 1459 résztvevő 1,2 millió megbízható minőségi értékelése alapján. Továbbá egy újszerű, mély tanulási minőségbecslő modellt (KonCept512) is javasoltunk, amely kiváló általánosításra képes a teszt készleten (0,921 SROCC), és a jelenlegi legmodernebb LIVE-in-the Wild adatbázison (0,825 SROCC).
3D pontfelhők ritkítása a felismerési hatékonyság megtartása mellett: LiDAR szenzorok által biztosított pontfelhőkön történő detekció robusztusságát vizsgáljtuk különböző különböző alul-mintavételezési eljárások és skálák mellett. Összehasonlítottuk az objektum detekció teljesítményét véletlenszerű mintavételezés és legtávolabbi pont mintavételezés esetén, különböző alul-mintavételezési arányok (2,4,8,16) mellett. A teljesítményt több különböző metrikák alapján is vizsgáltuk, az adathalmazt könnyű, mérsékelt és nehéz csoportba osztva detekciók szerint. Az elemzés egyrészt rávilágít az alul-mintavételezéssel elért számítási hatékonyság és a detektálási teljesítmény ebből eredő csökkenése közötti lehetséges kompromisszumra, másrészt a modell detekciós hatékonyságára a különböző módon csökkentett sűrűségű pontfelhőkön.
14:30 - Levente Hajder, ELTE: Geometric Computer Vision, GCVG@ELTE
The Geometric Computer Vision Group (GCVG) at the Eötvös Loránd University principally deals with 3D machine perception from camera images and LiDAR-scanned 3D point clouds, however, the processing of other sensors; including IMUs, 2D Lidars, ultrasonic sensors, RTK-GPS, microphone arrays; is also addressed. The main focus of the application is autonomous driving. The group has two test vehicles, a car and a controllable go-kart, they can be equipped with the selected sensors. The most important research area of the group is the application of affine transformations for stereo vision. The second focused topic is Lidar-camera and 2D lidar camera calibration for which they use spherical and cylindrical objects instead of the most common chessboard planes. The group strongly cooperates with the Robert Bosch company.
14:50 - Hajdu András, Harangi Balázs, Debreceni Egyetem: Rákos sejtek automatizált felismerése a méhnyakrák szűréséhez
A gépi tanuláson alapuló rendszerek fontos szerepet játszanak a méhnyakrák elleni küzdelemben. A kutatások egyik fejlődő területe a mesterséges intelligencia kihasználására összpontosít a méhnyakszűrési folyamat javítására, elsősorban a Pap kenetek kimerítő vizsgálatán keresztül, amely hagyományosan a speciális szakértők által végzett aprólékos és munkaigényes elemzésre támaszkodik. Annak ellenére, hogy létezik néhány átfogó és könnyen hozzáférhető adathalmaz, a területet jelenleg a nyilvánosan elérhető képek és kenetek kis mennyisége korlátozza. Ennek orvoslására az előadásban bemutatunk egy általunk összeállított nagy méretű adathalmazt a saját fejlesztésű MI-alapú eljárásainkkal együtt a rákos sejtek detektálására. A metodológiai háttéren túl bemutatjuk azokat az implementációs megoldásainkat is, amelyek lehetővé teszik a rendszer klinikai gyakorlatba való integrálhatóságát is.
15:10 - Kávészünet
15:40 - Majdik András, Gazdag Sándor, HUN-REN SZTAKI: Mesterségestér-intelligencia kutatásokat támogató lábmechanizmusú földi jármű és kapcsolódó kutatások bemutatása
Az élő demonstráció során bemutatásra kerül a MILAB keretében a közelmúltban beszerzett lábhajtásos mobil mérőplatform, azaz a Boston Dynamics robotkutya és annak érzékelő tartozékai. Az új kutatási platform hazai és nemzetközi szinten is újszerű kutatási feladatok vizsgálatát teszi lehetővé a mesterséges tér-intelligencia területén. Továbbá bemutatjuk egyik ígéretes kutatásunk eredményeit, a GPS-független kooperatív multiágensű térképezésre és helymeghatározásra alkalmas keretrendszert, amelyet tervezünk továbbfejleszteni hibrid, ember és robotkutya alkotta csoportok számára.
16:00 - Gulyás János, ELTE: Keep Gesturing: Emerging gesture-based pragmatic communication
”Keep Gesturing” is an innovative game for Extended Reality environments, demonstrating a new dimension of interaction between humans and LLMs through gesture-based communication. Players collaborate with an LLM-controlled avatar to identify and correct discrepancies in an augmented reality environment, relying solely on nonverbal cues.
16:15 - Pollner Péter, ELTE TTK: Synergy between histopathology and proteomics, the case of ovarian cancer
We show that integrating H&E-stained Whole Slide Images (WSIs) with proteomics measurements significantly enhances the prediction of the success of platinum based chemotherapies. We utilize state-of-the-art multi-modal deep learning models for this task. The model is able to better predict overall patient survival as well. Through model interpretability analysis we explore features for highlighting spatial distribution of pathway activities related to platinum treatment response. Our analysis showcases an example where artificial intelligence can assist personalized cancer treatment and suggests some hints for therapeutic vulnerabilities.
16:30 - Hadházi Dániel, BME MIT, MI kutatócsoport: Semiautomatic pulmonary aorta, heart and diaphragm segmentation (Szemi-automatikus pulmonáris aorta, szív és diafragma szegmentálása)
Segmentation of various organs and body parts based on CT scans is an essential step in the computer-aided design of the surgeries. Although, with the emergence of the machine learning-based algorithms many segmentation tasks can now be solved automatically, there is room for semiautomatic algorithms. On the one hand, in certain circumstances -- such as poor quality of the scans, presence of artifacts, and in some corner cases -- even machine learning based methods fail to perform the segmentation accurately. In these cases, a robust semiautomatic algorithm may be used as a fallback mechanism. On the other hand, training datasets which typically cover a
wide spectrum of cases and range of qualities for a better generalization ability of the trained model, require however time consuming manual labeling. Furthermore, a slightly different application requirement may require the re-labeling of the data. Semiautomatic algorithms can be a viable solution for speeding up the manual labeling of the training datasets. Finally, there are practical tasks that have not yet been solved by automatic segmentation methods -- such as diaphragm detection -- that healthcare professionals can benefit from.
16:45 - Kerepesi Csaba, HUN-REN SZTAKI: Measuring biological age by artificial intelligence
Aging clocks are artificial intelligence models that can estimate the age of an individual. However, biological age can differ from chronological age: a value higher or lower than chronological age may indicate accelerated or slowed aging. We develop and apply aging clocks for better understanding of biological aging and measuring biological age based on different types of data. The developed tools may become suitable for the evaluation of potential rejuvenating therapies or interventions that can slow down the aging process. In addition, they could become common tools for personalized medicine also considering the biological age of the patient.
17:00 - Zárszó