Az ELTE PIT Bioinformatikai Csoportjának kutatói készítették el a SECLAF nevű fehérjeosztályozó eszközt, mely több mint 99 százalékos találati pontossággal osztályozza a fehérjeszekvenciákat. Ez azért szükséges, mert a szoftver az adatbázisok ismert funkciójú fehérjéit alapul véve betanítható arra, hogy a fehérjék aminosav-sorrendje alapján felismerje azok funkcióit; az ily módon betanított eszköz ezután a szekvencia alapján már az ismeretlen funkciójú fehérjéket is be tudja sorolni az ismert funkcionális osztályokba. Grolmusz Vince professzor és Szalkai Balázs doktorjelölt a tekintélyes Bioinformatics 2018. február 27-ei számában tették elérhetővé a webszervert, illetve a letölthető programot.
– Hogyan alakult ki a bioinformatikai érdeklődése?
– Általános iskolás koromban a természettudományok, azon belül is a csillagászat érdekelt leginkább, a középiskolában – az ELTE Apáczai Csere János Gyakorló Gimnáziumában – pedig nagyon jó matematikatanárom volt, és heti 8 órában tanultuk a tantárgyat, amelyet ott szerettem meg igazán. Matematikusként végeztem az ELTE-n, és ezen a területen dolgozom azóta is. 13-14 évvel ezelőtt kezdtem el bioinformatikával is foglalkozni, ennek főleg a matematikai, egzakt vonatkozásaival. Előtte az elméleti számítógép-tudomány terén kutattam, nem programoztam, hanem bonyolultságelméleti kérdéseken dolgoztam. Itt arra kerestük a választ, hogy bizonyos feladatokat meg lehet-e gyorsabban oldani, mint ahogy azt most gondoljuk. Ez matematikailag általában nagyon nehéz kérdésekhez vezet. A ’80-as, ’90-es években az volt a közvélekedés, hogy pár éven belül eljutunk az ilyen típusú problémák megoldásáig, az ezredforduló után azonban kiderült, hogy az akkor rendelkezésre álló tudományos eszközökkel úgy tűnik, nem lehet ezeket a kérdéseket megoldani, ezért kezdtem el bioinfor-matikával foglalkozni: itt az egzakt matematikai módszerek bio-informatikai felhasználása érdekel.
A feleségem molekuláris biológus. Innen is van egyfajta biológia iránti érdeklődésem. Most is van egy olyan nagyobb projekt, amelyen közösen dolgozunk.
– A bioinformatikához szükséges biológiai tudást hogy szerezte meg?
– Autodidakta módon. Szerettem a biológiát az általános iskolában és a gimnáziumban is, de egyetemen nem tanultam. Közös cikkeken, projekteken dolgoztam biológusokkal és vegyészekkel.
– Egy olyan fehérjeosztályozó eszközt fejlesztettek ki, amely fehérjeszekvenciákat nagy találati pontossággal osztályoz, az UniProt adatbázis 698 fehérjecsaládjába és a Gene Ontology 983 osztályába. Mi ennek a jelentősége?
– Az élet legfontosabb molekulái a fehérjék – az összes életfolyamatban szerepet játszanak. A rengeteg féle fehérjéről különböző nagy adatbázisok – a legáltalánosabban használtak közé tartozik az UniProt és a Gene Ontology – tárolják az információt, mint például az elsődleges szerkezetüket leíró aminosavsorrendet, szekvenciát és az egyes fehérjék különféle funkcióit. A fehérjéket alkotó aminosavak sorrendjét ma már nem nehéz meghatározni, azonban a fehérjék funkciójának kísérletes meghatározása még ma is nagyon munkaigényes feladat. Ezért van óriási jelentősége annak, ha egy új fehérjéről annak aminosavsorrendje alapján meg lehet jósolni a funkcióit.
Itt a mesterséges intelligencia neurális hálók nevű eszközének egyik felhasználásáról van szó. Az agy működését próbálják leutánozni, ez alapján mesterséges rendszereket is be lehet tanítani, hogy felismerjenek bizonyos struktúrákat.
– Mi alapján választották ki ezeket az osztályokat, amelyekbe a fehérjéket sorolják?
– Ezekben mind a Gene Ontology, mind az UniProt összes osztálya benne van. Mind a két rendszer hierarchikus osztályozást használ, ez azt jelenti, hogy itt is, ugyanúgy, mint a rendszertanban, vannak magasabb és alacsonyabb rendű osztályok; példával illusztrálva, az enzimek magasabb rendű osztály, az anyagcsere-enzim alacsonyabb, a szénhidrát-anyagcsere enzimjei pedig még alacsonyabb osztály. Ezen kívül egy fehérjének néha többféle funkciója is van. A fehérjeosztályozó eszközünk egy ismeretlen fehérjéről meg tudja jósolni, hogy az a létező osztályok melyikébe tartozik bele. De sajnos azt is mondhatja, hogy fogalma sincs. Az a probléma ugyanis ezzel a betanításos módszerrel, hogy a betanításhoz kellene legalább néhány hasonló funkciójú, ismert fehérje. Ha az új fehérje semmihez sem hasonlítható, vagyis az eddig ismert funkciókhoz képest teljesen újakkal rendelkezik, akkor ez az eszköz sem tudja megjósolni a funkcióját.
– A szoftver tanítása során mi alapján választották ki az adatbázis egy részét a betanításra?
– Véletlenszerűen lettek kiválasztva az ismert funkciójú fehérjék. Ezeket két csoportba osztottuk, az egyiket használtuk a betanításra, a másikon – amibe szintén ismert funkciójú fehérjék tartoztak – teszteltünk. Ha a szoftver ezeket a fehérjéket berakta valamilyen osztályba, megnéztük, hogy jól rakta-e be.
– Az immár szabadon hozzáférhető szoftvert a felhasználók is tovább taníthatják?
– A webszervert a felhasználók már nem taníthatják, a program viszont le is tölthető, és az tanítható is.
– Használható ez az eszköz arra, hogy emberben egy ismeretlen fehérje funkcióját meghatározzunk, ha például egy betegségben csökken vagy nő annak a szintje?
– Elvileg igen. Ezzel azonban az a baj, hogy ha van egy ismeretlen fehérjeszekvencia, és erre mond valamit a szoftverünk, akkor ezt utána kísérletesen igazolni nehéz feladat.
– Mennyi ideig fejlesztették a SECLAF nevű eszközt?
– Főleg Szalkai Balázs dolgozott rajta, a webszervert is ő rakta össze, de előtte is volt már pár webszer-verünk, amelyeket alapul tudtunk venni. Az algoritmus felállításától a használhatóságig mintegy fél év telt el.
– Mennyiben más ez a fehérjeosztályozó eszköz, mint az eddigiek?
– 10-15 éve próbálják a fehérjék aminosavsorrendje alapján azok funkcióját megjósolni neurális hálózatok segítségével. Ezek közül a legegyszerűbbek csak arra voltak képesek, hogy eldöntsék, hogy egy fehérje beletartozik-e egy bizonyos osztályba vagy sem. Az általunk kifejlesztett eszköz viszont már 698 családba, illetve 983 osztályba tudja sorolni a fehérjéket, egy fehérjét egyszerre több osztályba is, és mindezt több mint 99 %-os találati pontossággal teszi. Ahhoz, hogy ezt el tudjuk érni, nagyon fontos, hogy milyen az ehhez használt neurális háló struktúrája, azaz, hogy hány és milyen funkciójú rétegből épül fel. Mi egy elég bonyolult szerkezetű neurális hálót fejlesztettünk, amely ezért tud elég pontosan dolgokat megjósolni. Az általunk kifejlesztett eszközhöz az is hozzájárult, hogy létezik a Google-nek egy TensorFlow nevű, nyilvánosan használható eszköze, melyet a betanításhoz felhasználtunk, és így nem kellett mindent a nulláról megcsinálni.
– A PIT Bioinformatika Csoportot kik alkotják, és még mivel foglalkoznak?
– Általában doktoranduszok vagy végzős egyetemisták a tagjai, akik jól tudnak programozni. A fő területek, amelyekkel még foglalkozunk: az agy kapcsolatainak felmérése és összehasonlítása, illetve a metagenomika.
A metagenomika lényege, hogy például klinikai vagy környezeti mintából kivonják a DNS-t, apró darabokra tördelik, majd ezeket szekvenálják, azaz meghatározzák a bázissorrendjüket. Ezzel a módszerrel meg lehet mondani, hogy például a bélflórában vagy egy szennyezett területen milyen típusú baktériumok vannak.Sokszor érdekes géneket is találhatunk, amelyeknek lehet például biotechnológiai vagy orvosi felhasználása. Cél lehet például az, hogy az eddigieknél sokkal hatékonyabb enzimeket használjunk a biotechnológiai folyamatokban, például olajjal szennyezett területek megtisztítására. Orvosi felhasználásokban azért jelentős a metagenomika, mert sok olyan betegség létezhet, amelyekről még nem gondolják, hogy baktériumok vagy vírusok okozzák. Itt ugyanis nem a hagyományos módon okoznak betegséget a kórokozók úgy, hogy nagyon elszaporodnak, és gyulladást okoznak, hanem valamilyen összetettebb mechanizmus által, és ezt nem egyszerű kimutatni. A kimutatás azért is nehéz, mert az ilyen baktériumok nagy része nem tenyészthető. A DNS-üket viszont ki lehetne mutatni az emberi szövetekből, ha azt keresnék.
A fentieken túl van egy már régebb óta jól működő szolgáltatásunk is, amelynek segítségével fehérjék és kismolekulák közötti kölcsönhatásokat tudunk megjósolni, ami a gyógyszermolekulák fejlesztésében hasznos.
DEME LÍVIA
ALBERT KRISZTIÁN
2018/18