Előfizetés a lapra

Számítógépes nyelvészet

A hét kutatója, interjú, nyelvészet, számítógép, társadalomtudomány

2015/10/27

Modern informatikai módszerekkel nemcsak a nyelvről és használóiról, hanem azok társadalmi hátteréről is sok mindent megtudhatunk. A számítógépes nyelvészet egyik legkiválóbb hazai szakembere, Prószéky Gábor, az MTA doktora aktuális kutatásairól beszélt, köztük a gépi fordítás lehetőségeiről és határairól, a szövegfeldolgozásról és az emberről mint pszi­cho­­lingvisztikus lényről.

– Mi volt előbb az Ön életében: a számítástechnika vagy a nyelvészet?

– A számítástechnika. Az ELTE TTK-n programtervező matematikusként végeztem, de már menetközben két csoporttársammal elhatároztuk, hogy csinálunk egy angol–magyar fordítóprogramot. Korábban is olvastam nyelvészeti könyveket arról, hogyan reprezentálódik a nyelv, mi tartozik a műveltséghez, mi születik velünk. Amikor ismét megjelent életemben a nyelvészet – a gépi fordítóprogram írásakor –, hallgatva egy jó tanácsra, elvégeztem a programtervezői mellett az általános és alkalmazott nyelvészet szakot is. A fordítóprogram persze jóval nagyobb falat, minthogy három egyetemista egy nyáron elkészítse, ám a részeredményeket (sikerrel) bemutattuk az 1980-as OTDK-n, és a bírálóbizottság elnöke, Dömölki Bálint azonnal meghívott kutatócsoportjába az SZKI-ba, egy akkoriban kialakuló programozási nyelv, a Prolog kapcsán. Ebben a környezetben készítettük el első morfológiai elemzőnket. A gépi nyelvészet témájába közben egyre jobban beleástam magam, és ez hozta meg az áttörést: 1985-ben fölkért a Műszaki Könyvkiadó egy Magyarországon akkor még meglehetősen ismeretlen terület, a számítógépes nyelvészet eredményeit összefoglaló könyv megírására. Egy kölcsönkapott Commodore-64-gyel kezdtem meg a munkát, majd az első PC-k megjelenésekor – nem kis erőfeszítéssel – sikerült a meglevő anyagot egy „komolyabb” szövegszerkesztőbe átemelni, majd a teljes tördelést is magamra vállaltam az akkor forradalminak számító TeX rendszerben. Első ilyen munkának egy 600 oldalas könyv nem volt egyszerű, de sikerült, és 1989-ben meg is jelent a Számítógépes nyelvészet című könyv, végül a SZÁMALK kiadásában.

– Egyik legismertebb alkalmazása a Word helyesírás-ellenőrzője. Ez hogyan jött létre?

– 1990 végén az első szövegszerkesztő magyar változatához az eredeti angol helyett kellett egy magyar helyesírási program is. Az angol modul csak ellenőrizte, hogy a kérdéses szöveg szavai megtalálhatók-e egy adott szólistában, de a magyar erősen toldalékoló nyelv, így annak a szavait nem lehet egyszerűen felsorolni. A korábban készített morfológiai elemzőt közben továbbfejlesztettem, ami igen jó alapnak bizonyult ennek a feladatnak a megoldásához. Az elképzelésemet először Tihanyi Lászlóval osztottam meg, majd Pál Miklóssal. A modult eredetileg egy másik csapat kezdte el fejleszteni, de mi hárman előbb készen lettünk, ráadásul egy hatékonyabb megoldással. A Közép- és Kelet-Európában akkortájt megjelenő világcégek (pl. WordPerfect, Microsoft) is érdeklődni kezdtek iránta. A magyarító projekt menedzsere, Dominus Péter 1991-ben azt javasolta, hogy megérné alapítani négyünknek egy céget: ez lett a MorphoLogic.

– A gépi fordításról se feledkezzünk meg, hiszen kiváló szoftvereik vannak ezen a területen. Alighanem ez a lehetőség érdekel legtöbbünket.

– Valóban: az első üzemszerűen működő és megvásárolható angol-magyar fordítóprogramot a mi cégünk hozta létre. Ám nem sokkal azután, hogy elkészültünk vele, megváltoztak az üzleti modellek a világban. Az interneten megjelenő tartalmak sokszor azt az üzenet kódolják, hogy „nem baj, ha valami nem elég jó, lényeg, hogy ingyen legyen”. Tulajdonképpen nem az ingyenesség ellen vagyok – a komoly, időigényes kutatások ellen szól, hogy a weben gyorsan közkinccsé lehet tenni sok olyan közepes dolgot, ami ahhoz képest, hogy ingyen van, még csak nem is használhatatlan. A komoly kutatói ráfordítással előállított, minőségibb megoldások sem tökéletesek, viszont azokért már nem sokan akarnak fizetni, mert ha például a 85 százalékos minőség pénzbe kerül, akkor sokan a 70 százalékossal is megelégszenek, mert az ingyenes. Ha majd esetleg közel 100 százalékos lesz a minőség…

– Lesz száz?

– A gépi fordítás szerintem sosem lesz 100 százalékos, és ennek sok oka van. A mi szolgáltatásunk, a webforditas.hu szabályalapú, de a statisztikai rendszerek kutatásával is foglalkozunk. Ez utóbbi nagy mennyiségű emberi fordítás feldolgozásán alapul, és akkor működik jól, ha ugyanazokat az elemeket mindig ugyanúgy fordítják, ám ahogy megjelenik egy új környezet, ahol máshogy kell az eddig egyértelműnek tűnő nyelvi egységet fordítani, akkor elromolhat még az eddigi jó fordítás is. Minél szűkebb viszont a szakterület, annál jobb lehet a fordítás, például csak fűtésszerelési szövegekkel kiválóan működhet a statisztikai fordító, de akkor a tanítóanyagába nem szabad mást (például sporthíreket) vegyíteni. Az ingyenes webes szolgáltatásoknak viszont nem érdekük, hogy kis szakterületekre bontsák a világot; amivel devalválják a piacot azt sugallva, hogy a mai gépi fordítás minősége az övéknél nem is lehet jobb.

– Mi a megoldás?

– Az, hogy kombináljuk a szabályalapú meg a statisztikai rendszereket: ezeket hívják hibrideknek. Így viszont ismét szerephez jut a drága és sokszor lassú emberi munka (a nyelvészé), pedig a statisztikai megoldás azt ígérte, hogy nem leszünk kiszolgáltatva az emberi közbeavatkozásnak.

– Min dolgoznak jelenleg?

– Létrehoztam egy kutatócsoportot a PPKE Információs Technológiai és Bionikai Karán, ahol már több mint 12 éve tanítok nyelvtechnológiát. Az egyik nagy projektünk, a Digitális konzílium célja a kórházi beteglapok intelligens gépi kezelése. A kórházi beteglapokon sok a latin kifejezés, az ismeretlen rövidítés, ráadásul mindez sokszor elgépelve. Arra gondoltunk, ha a páciens nem is, de az orvos meg az asszisztens érti, akkor van olyan dekódoló mechanizmus, amit ha be tudunk vinni a gépbe, fel tudjuk dolgozni ezeket a beteglapokat.

– Mit várnak ettől?

–A kórlapok tartalmát egyfajta jelentéstani reprezentációba fordítjuk, és ha ezt kérdezzük le, nem az eredeti beteglap betűit, akkor olyan kérdésekre is választ lehet kapni, hogy például hasonló kezeléseket kapott-e már valaha valahol valaki, és hogyan reagált rá. Egy ilyen rendszer segítségével egyrészt a kevésbé tapasztalt orvosok konzíliumot tudnak tartani időben és térben máshol levő kollégáikkal, hiszen az adott esethez tartalmilag hasonlókat keres a rendszer. A ritka betegségeket is könnyebb így azonosítani, valamint az igen nagy előny, hogy ha a beteg más nyelvterületre kerül, akkor a nyelvfüggetlen reprezentáció azt is lehetővé teheti majd, hogy a német orvos török vagy a magyar,  ukrán beteglapok alapján folytassa a kezelést.

– Mit jelent az, hogy az ember pszicholingvisztikus lény és mit tudnak ezzel kezdeni?

– Ez a másik nagy terület, amit mostanában kutatunk. Agyunk garantáltan párhuzamosan működik, de a mai nyelvfeldolgozó algoritmusok javarészt szekvenciálisak. Bár igen hatékonyak, de segítségükkel semmit sem tudunk meg az emberi információfeldolgozásról, hiszen annak nem a menetét, csak jó esetben a végeredményét modellálják. Az emberi szövegértelmezés számítógépre való átültetését végzi tehát vezetésemmel az MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoportja. Az a célunk, hogy többet tudjunk meg az emberi információfeldolgozásról, azaz csak olyan elveket építünk bele az elemzőnkbe, amikről a pszicholingvisták megállapították, hogy az ember is így csinálja.

 TRUPKA ZOLTÁN

 

2015/36