A Rényi Intézet Deep Learning szemináriumának következő előadását Olár Alex (ELTE TTK Fizikai Intézet) tartja június 2-án szerdán 16:00-kor, zoom link és absztrakt alább.
„A Humán Genom Projekt keretében 2003-ban sikeresen leolvasták és összeillesztették a teljes emberi genom szekvenciát. Az elmúlt közel 20 évben a technológiai fejlődésnek köszönhetően a genom szekvenálás ára exponenciálisan csökkent, így egyre nagyobb mértékben elerhető és tanulmányozható ilyen típusú adat. Ma már valós-idejű DNS szekvenálásra is lehetőség van (Oxford Nanopore Technologies Ltd.), ami lehetővé teszi a gyors vizsgálatokat és minta szelekciót. Ezen feltételek mellett nem meglepő, hogy rengeteg területen kezdtek el gépi tanulást alkalmazni, metilációs vizsgálatokra, transzkripciós faktor jóslására, base-callingra, amely során közvetve olvassák le a bázis szekvenciát. A gépi tanulás felfutásával, kezdetben rekurrens hálókat, konvolúciós LSTM hálókat és ma már Transformer alapú modelleket is használnak a genomika különböző területein.
Az előadás során néhány témába vágó cikket fogok bemutatni, amelyek elsősorban mai, természetes nyelv feldolgozási technikákat alkamaznak a genomikára, ilyen az idén megjelent DNABERT [1], amely gyakorlatilag DNS-nyelvfeldolgozást csinál és a fine-tuning lépések után a figyelem mátrixból próbál kiolvasni releváns információt. A valós idejű szekvenálást egyenlőre rosszabb pontosságú, mint a korábban kifejlesztett technikák, de kifejlesztése óta (2014) nagy lendülettel fejlesztik a vizsgálati eszközöket, valamint a feldolgozó algoritmusokat is. Egy áttekintő cikk [2] keretében felvázolom a jelenlegi algoritmusokat [3] és bemutatok néhány újkeletűt is [4]. Ezen módszerek lényege, hogy egy feszültség jelet alakítsanak át az annak megfelelő bázis-szekvenciává, amelyben hasznosak lehetnek a mai text-to-speech technikák.”
[1] Ji, Yanrong, et al. "DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome." bioRxiv (2020). [2] Rang, Franka J., Wigard P. Kloosterman, and Jeroen de Ridder. "From squiggle to basepair: computational approaches for improving nanopore sequencing read accuracy." Genome biology 19.1 (2018): 1-11. [3] Teng, Haotian, et al. "Chiron: translating nanopore raw signal directly into nucleotide sequence using deep learning." GigaScience 7.5 (2018): giy037. [4] Lv, Xuan, et al. "An End-to-end Oxford Nanopore Basecaller Using Convolution-augmented Transformer." 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2020.