A mindent elöntő adatáradat, a „big data” napjaink egyik legnagyobb kihívása. Csabai István fizikus, az ELTE Komplex Fizikai Rendszerek Tanszékének munkatársa úgy véli, a rengeteg adat nem csak problémát, hanem nagy lehetőséget is jelent. Megfelelő kezelése, felhasználása hozhatja el a tudomány aranykorát, és teszi majd lehetővé olyan bonyolult rendszerek megértését, mint az élet, a világmindenség meg talán sok minden más is. Már „csak” a hogyanra kellene válaszolni. E heti beszélgetőpartnerünk a válasz lehetőségeit kutatja itthoni és nemzetközi együttműködésekben egyaránt.
– Talán ön volt az első magyar kutató, aki a csillagászati adatmennyiségek feldolgozásával kezdett foglalkozni, méghozzá éppen az égbolt kutatása közben.
– A ’90-es évek közepén Baltimore-ban, a Johns Hopkins Egyetemen, Szalay Sándor professzor csoportjában kapcsolódtam be az Univerzum nagyléptékű háromdimenziós szerkezetének felmérésébe, a Sloan Digital Sky Survey programba. Az előbbi kijelentés annyiban igaz, hogy az SDSS tekinthető az első tudományos big data projektnek. Az égbolt digitális felmérését külön erre a célra tervezett, 2,5 méteres távcsővel végeztük melyben a legnagyobb újdonság a 120 megapixeles CCD-vel ellátott kamera volt. Öt tartományban vizsgáltuk az eget, és a tervezés során számolgattuk, hány terabájtnyi adat gyűlik majd össze. Ez akkoriban óriási adatmennyiséget jelentett, de mindenki bízott a Moore-törvényben, vagyis hogy továbbra is exponenciálisan növekszik a számítógépek kapacitása, és mire beindul az észlelés, nem jelent majd problémát. A technikai problémán túl a tudomány számára is soha nem látott kihívás jelentkezett: mit lehet kezdeni 100 TB-nyi képpel? 300 millió galaxist nem lehet egyesével szabad szemmel végignézni. Teljesen új metódus kellett, új információtechnológiai megoldásokba, adatbáziskezelő rendszerekbe kellett betanulni. Ebbe a „big data” tudományba tanultam bele és hoztam haza.
– A fizikusi pályája hogyan ágazott el a biofizika felé?
– Diákkorom óta voltak olyan terveim, hogy az emberi agyat, a gondolkodást vizsgáljam. Marx György, az Atomfizika Tanszék akkori vezetője néhány elismert biológus kollégájával kialakított egy szakágazatot, amit most biológiai fizikának hívnak. Bejártam a genetika, élettan, sejtbiológia előadásokra és diplomamunkám és doktorim biológiai motivációjú statisztikus fizikai modellekkel, mesterséges neuronhálózatokkal foglalkozott. Ezt a ma már gépi tanulásnak nevezett módszert próbáltuk alkalmazni galaxisok vöröseltolódásnak a becslésére is, amivel végül Baltimore-ba kerültem.
– A neuronhálók és a vöröseltolódás hogyan kapcsolható össze?
– A gépi tanulás úgy működik, hogy az algoritmusnak mutatunk sok példát és ezek alapján beállítja a modell paramétereit, úgy, hogy legtöbbször jó választ adjon. Szerencsés esetben még soha nem látott bemenetekre is működik a jóslás. Az SDSS lefényképezte a galaxisokat öt optikai sávban. Az így kapott öt szám bonyolult összefüggéseben van a vöröseltolódással, és a Hubble-törvényen keresztül a távolsággal, de direkt módon nem tudjuk kiszámolni. Számos példa alapján a becslő algoritmus jó eredményeket adott. A valódi neuronhálók is hasonlóan működnek. Látunk egy macskát, kutyát és egy modellt alakítunk ki róluk a fejünkben. A fizikus is így dolgozik: tapasztal dolgokat, észlel, mér, kialakít egy modellt és a modell alapján próbál jósolni, a jóslatokat összevetni az újabb észlelésekkel.
– Sokaknak úgy tűnhet, hogy a „big data-jelenség” „csak” a természettudományok problémája.
– Az utóbbi években kiderült, hogy messze nem így van, nagyon is földi kérdések elemzésénél is szükség van ilyen megközelítésekre. A csillagászokra a CCD megjelenésével ömlött rá a sok adat, ugyanez a helyzet most például a szociológiánál a Facebook meg a Twitter jóvoltából. Tanszékünk vezetőjével, Vattay Gáborral a szociális hálózatok és az internet vizsgálatát végeztük. A sok adat ma már a nagy cégeknél is megjelenik. Egy repülőgép sugárhajtóművében többszáz szenzor van, és 3 másodpercenként felszáll egy gép valahol a világban. Egy nagy hipermarketlánc napi forgalmában is rengeteg adat jelenik meg: miből mennyit és milyet vesznek stb. Ugyanolyan adatkutatási feladat jelentkezik a cégeknél is, mint a tudományon belül. A fiatalok számára ez erős elszívó erő, mert akik jól tudnak adatokat bányászni, elemezni, modellezni, azokra a cégeknek és az iparnak is szüksége van. És valljuk be, jobban fizetik őket, tehát nagy a szívóerő.
– Melyik az igazi témája?
– Tulajdonképpen mindegyik. A „big data” ilyen szempontból kapóra jön, mert összefog mindent. Továbbra is dolgozunk nemzetközi csillagászati projekteken, de az utóbbi 6-8 évben visszakanyarodtam a biológiához is. Először a Semmelweis Egyetemről kerestek meg, egy hazai nagy projektben azóta velük és több más hazai és külföldi csoporttal együttműködünk elsősorban molekuláris genetikai témákban. Legígéretesebb téma talán a rák genetikájának megértése, hatékonyabb diagnosztikája. Egy most induló kutatásban például az úgynevezett folyadék-biopszia lehetőségét vizsgáljuk. Azt lehet tudni, hogy a rákos szövetekben változások történnek mind a DNS egyes részein, mind az RNS-sel vizsgálható génexpresszióban. Ezek egy része kikerül a véráramba, és ha elég érzékenyek a szekvenálási vizsgálatok, akkor a vérből kimutatható, hogy vannak-e rákra utaló elváltozások. Abból pedig, hogy milyen mintázata van a génexpressziónak, azonosítani lehet, hogy melyik szövetből származhat a jel. A távlati cél, hogy egy egyszerű vérvizsgálattal diagnosztizáljunk egyes ráktípusokat már korai stádiumban.
Számos technikai kérdés mellett itt is az adatfeldolgozás a legnagyobb kihívás. Külön nehézség, hogy az eddigi képzés – nem csoda, hisz nem volt ennyi adat – nem készítette fel az orvos- és biológuskutatókat ilyen elemzésekre. Fel kellene gyorsítani a bioinformatika képzést. Az átalakulás felértékeli a multidiszciplinaritást és a diszciplinák közötti kommunikációt ami utóbbi időben egy kicsit elveszett a diszciplínák fókuszált szakosodásával.
– Kívülről úgy tűnik, egyre mélyebben, egyre összetettebb módon és egyre alaposabban vizsgáljuk a világot, ami ezáltal egyre bonyolultabbnak is tűnik. Hogy lehet ezt majd egyszer a végén összerakni?
– Ez nagyon jó kérdés, és az is, hogy az emberi elme egyáltalán képes lehet-e erre. A fizika mindig igyekezett lecsupaszítani, izolálni a rendszereket, hogy minél egyszerűbb képletekkel leírhassa. Van azonban egy tendencia a világban, ami a komplexitás felé mutat. A biológia tipikusan ilyen. Senki nem gondolja, hogy az életnek egyszerű, hárombetűs egyenlete van, mint például Newton második törvénye. Az atomok kvantummechanikájától kezdve a biokémián és sejtbiológián át egymásra épülő bonyolult folyamatok zajlanak: az élet egy komplex rendszer. Komplex rendszerek megértéséhez komplex modellek kellenek, amiket csak sok adat segítségével lehet felismerni és validálni. Eddig esélytelen volt, hogy válaszoljunk ezekre a nagy kérdésekre. A sok adattal, műszerrel egyre részletesebb képet kapunk, és előbb-utóbb összeáll a modell, és tényleg lesz esély arra, hogy meggyógyítsunk ma még kezelhetetlen betegségeket, megszűnjön a rák, hosszabban éljünk egészségben. Nagyon nagy munkára és interdiszciplináris összefogásra van szükség, de optimista vagyok. Jó idők jönnek a tudományban, ha más emberi gyarlóságok nem akadályozzák meg. Amire sajnos nincs garancia.
TRUPKA ZOLTÁN
2017/27