Netes Mikes - Műsfél millió törökországi szó

Cikk megosztása

Megosztás

Hírlevél

Iratkozzon fel hírlevelünkre!

Az írói szótár előzményének a konkordanciát és a glosszáriumot tekintjük, melyek gyökerei az ókorig vezethetők vissza. A konkordancia a szövegbeli tájékozódást és keresést tette lehetővé, a glosszárium az értelmezést segítette. E két műfaj ötvöződése – kiegészülve a grammatikai és a tárgyi-kulturális szempontokkal – eredményezte a mai értelemben vett írói szótártípus kialakulását. S ez vezetett el végső soron Mikes Kelemen nyelvének internetes feldolgozásáig is.

A modern magyar írói szótárak készítésében jelentős fellendülést hoztak az 1950-es és az 1960-as évek, amikor német és orosz hagyományra épülve több magas színvonalú szótár szerkesztése kezdődött el (Petőfi-szótár, Juhász Gyula-szótár stb.). Ezek a munkák azonban a túlzottan aprólékos, gazdag jelentéstani és stilisztikai részletezés miatt igen lassan készültek el – jobbára cédulázással, kézi eszközöket alkalmazva. Az informatikai támogatással, formális elveken alapuló, szövegkorpuszra épülő első szógyűjtemények a 60-as évektől láttak napvilágot. Papp Ferenc, a magyarországi számítógépes nyelvészet iskolateremtő alakja már a 70-es években felismerte a konkordancia fontosságát az írói szótárak készítésében. Az 1980-as években az új lendületet vett és informatikai alapokra helyezett Nagyszótár készítése ösztönzőleg hatott a magyar lexikográfiára, s ettől kezdve szótáraink alapvetően informatikai támogatással készültek.

A számítástechnika elsősorban az adatok tárolásához és rendszerezéséhez nyújt segítséget a lexikográfiai munkában. A szótári adatok kezelésének és megtalálhatóságának szempontjai számítógépes környezetben tudnak igazán érvényesülni. Míg a papír alapú szótárakban szükségszerű számos korlátozó tényező, mint a példaanyag szűkítésének kényszere, bonyolult utalórendszer, terjedelmi megszorítások stb., addig a digitális szótárak mentesülnek e kötöttségek alól, sőt kedvez az árnyalt, részletező szócikkszerkezeteknek, az adatok közti kapcsolatrendszer kialakításának az informatikai környezet és a rendszerszerűség, s nem utolsó sorban a terjedelmi korlátok is feloldhatók. A keresések gyorssá, pontossá és hatékonnyá válnak, s olyan adatok lekérdezésére is lehetőség nyílik, amelyeket papír alapú szótáraknál nem vagy csak jelentős energiaráfordítással érhetnénk el.

Ezt felismerve 2010-ben az MTA BTK Irodalomtudományi Intézete XVIII. századi Osztályán egy OTKA-pályázat keretében – Tüskés Gábor témavezetésével, Kiss Margit szerkesztésével, Szathmári István és Horváth Katalin szakmai támogatása mellett, digitális módszereket alkalmazva – megkezdődött Mikes Kelemen írói nyelvének szótári feldolgozása. Az úttörő vállalkozás hiánypótló is egyben, hiszen első lépésben elkészült a magyar középkor jelenleg legnagyobb elektronikus korpusza s digitális formátumban a Mikes-szótár az első teljes életművet feldolgozó szótár. (Azóta már készül a digitális József Attila-szótár is Mártonfi Attila szerkesztésében.) A Mikes halálának 250. évfordulója alkalmából összeállított honlap is elérhetővé vált, amelyen az író munkásságához kapcsolódó különféle ismeretanyagok találhatók.

A Törökországi levelek megírásán kívül Mikes jelentős mennyiségű prózai művet fordított franciáról magyarra. A Hopp Lajos által készített kritikai kiadás mintegy hatezer oldalából mindössze jó háromszáz oldalnyit tesznek ki a levelek. A digitális feldolgozásnak köszönhetően ma már tudjuk, hogy Mikesnek összesen körülbelül másfél millió szava van: ez a mennyiség háromszor több Petőfi életművénél és ötször több József Attiláénál. A magyar irodalmi és köznyelv szótárának – közismertebb nevén a Nagyszótárnak – elektronikus szövegkorpusza, amely 1772-től napjainkig tartalmaz szövegeket, jelenleg mindössze tizennyolcszorosa a Mikes-korpusznak. A projekt egyik jelentős eredménye, hogy az életmű elektronikus formában nemcsak a szótár készítői számára vált elérhetővé, hanem a Magyar Elektronikus Könyvtárban, a MEK-en bárki hozzáférhet.

Míg a mai helyesírás szabályzatba rögzített, a régi szövegeké nem volt az, s ugyanannak a szerzőnek különböző műveiben is ingadozott az írásmód. A digitális szókeresők alapja az egységes, szabályozott helyesírási rendszer, a szoftveres támogatások is ez alapján működnek. A történeti szövegek számítógépes feldolgozásában azonban kevés lehetőség kínálkozik az automatizmusok számára. A régi korok írásmódbeli egyenetlenségeit és a számítógép szabályozottságát egymáshoz közelíteni nem magától értetődő feladat: a Mikes-szótár esetében pusztán néhány szabályos eltérést tudtunk „gépesíteni”, a szótárrá szerkesztés jelentős részét manuálisan kellett elvégeznünk.

Az általunk kialakított módszert más digitális szótári munkáknál is eredményesen lehet alkalmazni. A kötetek szkennelését követően szövegfelismertető szoftver speciális beállításaival alkalmassá tettük gépi feldolgozásra a nyomtatott kritikai kiadás szöveganyagát. Ezt követően korrektúráztuk a felismertetett szöveget, és elláttuk tartalmi jelölőelemekkel, úgynevezett XML-tagekkel. E címkézés lehetővé tette, hogy ne csak egy-egy szóra vagy szavakra, hanem azonos funkcióban álló tartalmi egységekre is kereshessünk, mint például a rövidítésekre, idegen szavakra, versbetétekre stb.

Több olyan statisztika is készült, amelyet eddig emberi erőforrással lehetetlen volt létrehozni. A szoftveres támogatással készített szókonkordancia például megmutatja, hogy az egyes szavak hányszor és milyen szövegkörnyezetben találhatók. Ez a lista a szótani kutatások számára kincsesbánya, de egyben a szótárkészítés alapja is. Számos esetben már önmagában véve is produktum: gyorsan, könnyen létrehozható, és a kutatók számára hasznos forrás. A régies írásmódú szövegeknél tudnunk kell pontosan, hogyan írták le a keresett szót, vagy segítenünk kell a felhasználót megtalálásukban. Ilyenkor a szabálytalan alakokat célszerű a szabályos formák felé közelíteni. A Mikes-szótár szerkesztése során a másfél millió szó minden egyes darabjánál ezt az elvet követtük. A régies írásmód mellett szegmentálási anomáliákkal is számolnunk kellett: összetett szavak, illetve egyes toldaléktípusok különírásával vagy mai különírt alakok egybeírásával. A konkordancialista elemeiből kiindulva haladtunk a mai formák felé, így minden mikesi alaknak meghatároztuk az alapalakját, majd hozzárendeltük a mai címszót.

Azt is megtudhatjuk a szótárból, hogy Mikes használta-e például a kanál szót, függetlenül attól, hogy leírta-e ebben a mai formájában vagy csak kalán alakban. Lekérdezhetjük azt is, hogy melyek az író önálló szóalkotásai, amelyeket más szótárban nem találunk meg, mint például a balgondolat, halálszolgálat stb. A szokásosnál bővebb utalások segítségével eljuthatunk más vonatkozó címszavakhoz is, akár a szótáron belül, akár más szótárra utalva; de listázhatjuk például a török eredetű szavakat és a tulajdonneveket is. A szótári kereséshez kialakítottunk egy internetes felületet, amelyen további lekérdezési lehetőségek állnak rendelkezésre. A speciális kereséseknek köszönhetően nemcsak szóegészre, hanem egy-egy szón belüli betűsorozatra is tudunk keresni, de listázhatunk adatokat akár az egész életműből vagy akár néhány műre vonatkozóan is. Kiválaszthatjuk azt is, hogy a régies vagy a mai alakok között szeretnénk keresni (http://mikesszotar.iti.mta.hu). Az új feldolgozási módszer lehetővé teszi, hogy a terjedelmes szövegeket úgy is fel lehessen dolgozni, amire korábban nem volt mód. Ezekkel a módszerekkel új eredmények várhatók az irodalomkutatásban és a nyelvtudományban, azonban nemcsak a filológusok kapnak újat a számítástechnikai eszközök alkalmazásától, hanem az informatikusokra is új kihívások várnak.

A szótár készítése során megfigyeltük, hogy nemcsak egy-egy szó, hanem nagyobb, mondatnyi egységek is többször ismétlődnek a szövegekben. Ezek nem mindig szóról szóra történő egyezések, hanem olykor kisebb eltéréseket tartalmaznak. Ezek feltárása és elemzése az irodalomtörténeti kutatásoknak fontos feladata, amelyet manuális eszközökkel nem tudunk eredményesen elvégezni, eddig csak a jéghegy csúcsát láttuk belőlük. A Budapesti Műszaki Egyetem egyik informatikus hallgatója intézetünk gyakornokaként kifejlesztett egy olyan eljárást, amellyel ezek az azonos vagy hasonló, szövegek listázhatók a régi, egyenetlen írásmódot tartalmazó szövegkorpuszból anélkül, hogy célzott szó- vagy szövegkereséseket végeznénk. A XVIII. századi szövegekben komoly informatikai kihívást jelentett e feladatnak a megoldása, amely irodalomtörténeti újdonságot hozott. A módszer kidolgozása lehetőséget teremt arra, hogy más, nagyobb szövegkorpuszokat is hasonló módon vizsgálhassunk.

Mára az írói szótárak száma folyamatosan nő, mégis kevés figyelmet kapnak e munkák, holott készítésük kortörténeti, irodalomtörténeti, nyelvészeti ismereteket feltételez, és a megfelelő informatikai eszközök alkalmazását is megkívánja. A korszerű írói szótárak sokkal többet nyújtanak a szócikkek bemutatásánál, a szójelentések leírásánál és a számadatok felsorolásánál. A statikusság helyébe a dinamikusság és az egyéni szempontok szerinti alakíthatóság lépett. Különféle beállításokkal a szótárt testre szabhatjuk, és a kívánt részleteket listázhatjuk. A kutatással az volt a célunk, hogy a mai kor igényeihez igazodva megőrizzük múltunk értékeit, elérhetővé tegyük minden érdeklődő számára, s bemutassuk a XVIII. századi irodalom egyik legnagyobb alakját úgy, ahogy eddig még nem ismertük.

KISS MARGIT

OTKA

K 81337

PUB-I 113547

2015/2

A labortól a betegágyig –...

Lézerhullámokon szörfölő...

Az ördögfióka története...

A fejedelem 500 éve – A me...

Netes Mikes – Műsfél millió törökországi szó

Netes Mikes – Műsfél millió törökországi szó

Cikk megosztása

Hírlevél

Olvasta már?

A bábák és dajkák szerepe – Női praktizálók a középkori arab orvoslásban

Kőkorszaki vasfüggöny – Jut eszembe…

Láthatatlan invázió – Száz éve pusztít a tölgylisztharmat

Kedves Olvasónk! – Prima Primissima jelölt a TIT!

Kémiai Nobel-díj génkarbantartásért