„Procesul de digitalizare a lexicografiei în România: prezent și perspective”, un articol de Elena Isabelle Tamba

1.001

Am citit cu atenție sporită articolul lexicografei ieșene Elena Isabelle Tamba (https://lexikos.journals.ac.za/pub/article/view/1857), menit să ofere o sinteză asupra stadiului lexicografiei digitale în țara noastră. Articolul conține informații corecte, dar și o serie de omisiuni grave, comparații nepotrivite, escamotarea eșecurilor, pe scurt, neadevăruri științifice, motiv pentru care îl vom supune unei analize riguroase în beneficiul cercetătorilor de la noi, dar și din străinătate. 

De mai bine de trei decenii, digitalizarea a transformat profund peisajul lexicografiei globale. În 1988, a fost lansată prima versiune a celebrului dicționar Oxford English Dictionary (OED) pe CD-ROM. În România, acest proces, deși tardiv în comparație cu multe țări din Occident, s-a accelerat datorită evoluției tehnologiilor informaționale, dar și excepționalei dedicații a dlui Cătălin Frâncu și a echipei sale (proiectul dexonline). Din 2022, s-a alăturat acestui proces și comunitatea academică (la Iași și București), în efortul de a moderniza gestionarea patrimoniului lexicografic național, publicând platforma Solirom. În articolul său, dna Elena Isabelle Tamba își propune să ne ofere o imagine de ansamblu a digitalizării lexicografice românești, prezentând realizările, provocările și perspectivele acesteia.

Înainte de apariția tehnologiei digitale, lexicografia românească se baza pe metode tradiționale de concepere și creare a dicționarelor. În statul comunist, aceste opere erau, precumpănitor, rezultatul muncii colective, instituționale, fiind publicate sub formă de volume tipărite, produse de echipe din cele trei institute de lingvistică afiliate Academiei Române. Dezvoltarea lexicografică a fost puternic marcată de standardele epistemologice și metodologice clasice, stabilite la noi în a doua parte a secolului al XIX-lea: colectarea manuală a datelor, analiza filologică, conceperea articolelor și publicarea lucrărilor.

Cu toate acestea, ca în multe țări, diseminarea în masă a acestor resurse a fost limitată, cu excepția Dicționarului limbii române literare contemporane (1955-1957), a Dicționarului limbii române moderne (1958), a Dicționarului explicativ al limbii române (1975 și urm.) și a DOOM (1982 și urm). Dintre acestea, doar DEX-ul și DOOM-ul au cunoscut actualizări, ultimele fiind publicate în 2016, respectiv 2021. Cea mai importantă lucrare lexicografică, Dicționarul limbii române (1913-2010) a rămas neactualizată, fiind până de curând, aproape inaccesibilă, cu excepția unor cercuri specializate sau academice cărora li se adresează. Să reținem acest paradox: dicționarul-tezaur al limbii noastre este necunoscut publicului larg, neexistând niciun proiect de transformare a acestuia într-o operă actuală, deschisă și interactivă, așa cum sunt operele similare din multe alte țări.

Apariția internetului și a instrumentelor informatice au marcat un punct de cotitură pentru lexicografia românească. Potrivit dnei Elena Isabelle Tamba, digitalizarea a deschis noi orizonturi în ceea ce privește producția, distribuția și utilizarea dicționarelor. Citez, în traducere, articolul fiind scris în limba franceză:

„Acest proces de digitalizare a cercetării lexicografice/lingvistice implică mai multe etape:

— conversia din format tradițional/pe hârtie în format digital, ceea ce conduce la crearea de corpusuri lexicografice (sau lingvistice), prin mai multe abordări de cercetare:

  • digitalizarea dicționarelor pe hârtie
  • crearea/dezvoltarea de corpusuri lexicografice
  • crearea/dezvoltarea de corpusuri lingvistice, adnotate din perspectivă morfologică, sintactică și semantică

— crearea de resurse lexicografice direct în format digital, prin:

  • crearea de dicționare direct în format digital
  • utilizarea programelor de editare a dicționarelor
  • utilizarea programelor de extragere a citărilor etc.”

Conversia dicționarelor din format tradițional în format electronic se poate face în două feluri:

  1. prin simpla digitalizare a paginilor, supuse ulterior unui program de recunoaștere optică a caracterelor (OCR), permițând căutări simple. Trebuie precizat că această metodă are o serie de limitări care țin, în special, de erorile de lectură optică. Institutul de Lingvistică din București a digitalizat aproape întreaga bibliografie a DLR, inclusiv dicționarele. Platforma Solirom a disponibilizat dicționare în format PDF, consultabile la nivel de intrare, dar soluția este insuficientă și mediocră. A se compara Dicționarul limbii române literare contemporane de pe Solirom cu același dicționar în format digital pe dexonline;
  2. prin transcrierea textului în format digital, așa cum a procedat dexonline, cu dicționarele de bază în format tradițional.

În chestiunea creării de corpusuri lexicografice online, primatul, amplitudinea și adeziunea publică o are dexonline (din 2004). Solirom (din 2022) este necunoscut, numărul de accesări fiind infim.

Cât privește crearea de corpusuri lingvistice, adnotate din perspectivă morfologică, sintactică și semantică, aici trebuie menționat proiectul Romtext (2019), dar abandonat în mod lamentabil de Institutul de Lingvistică din București.

Primul dicționar gândit să fie publicat atât pe hârtie, cât și în format digital, a fost ediția a II-a a DLR, litera A, fascicula 1, A-Abzițui. În mod inacceptabil, versiunea publicată pe Solirom oferă soluții de căutare modeste și incomplet soluționate. Pentru realizarea acestui dicționar înnoitor, a fost creat un program de editare, la București, nefolosit și abandonat și el din 2020.

Pentru extragerea citatelor a fost creat la București un site folosit intern în institutele de lingvistică, dar care nu are filtre pentru controlul informației, devoluția fiind adesea excesivă.

Să încheiem aceste precizări spunând că, deși structura digitală permite actualizarea continuă a datelor, făcând posibilă o lexicografie vie, în evoluție, și receptivă la schimbările lingvistice, singurul dicționar care a fost actualizat de curând este Dicționarul etimologic al limbii române, pe Solirom, căruia i s-a adăugat litera D și o nouă versiune a literei A. Din păcate, unele date au rămas neactualizate, cum ar fi familia, anul primei atestări, cel mai adesea eronat, precum și sursa.

Este adevărat că resursele digitale oferă oportunitatea de a deschide lexicografia către societate: elevi, studenți, profesori, cercetători, dar și publicul larg, inclusiv diaspora românească și românofilii de pretutindeni.

Cu toate acestea, acest proces nu este lipsit de provocări. Trecerea de la hârtie la digital presupune o adaptare a metodelor de lucru, o reconfigurare a competențelor, dar și integrarea de noi instrumente tehnologice precum baze de date, interfețe de consultare, analiza automată a limbajului și integrarea progreselor făcute în IA.

Despre lexicografia digitală în România, dna Elena Tamba afirmă:

„În prezent, în România există diverse proiecte lexicografice (sau lingvistice) digitalizate, realizate prin inițiative academice ‒ printre care se numără nu doar institutele de limba și literatura română și institutele de informatică ale Academiei Române, ci și centre de cercetare din cadrul unor universități și biblioteci din România. Există însă și inițiative private (proiecte inițiate de voluntari; proiecte ale anumitor edituri etc.)”

Cercetătoarea inversează în mod voit și fals raportul dintre inițiativele private și cele de stat. Altfel spus, omite referirea la platforma dexonline, cea mai importantă sursă de informare lexicală din țara noastră. Să amintim că în 2004, dl Cătălin Frâncu și echipa sa publicaseră deja DEX-ul. Unde se aflau institutele patronate de Academie la vremea aceea? La București, sub conducerea lui Marius Sala, domnea ignoranța. La fel și la Cluj-Napoca. Este drept că la Iași se inițiaseră studiile pentru trecerea în format digital a DLR-ului. Din păcate, nici azi nu s-a finalizat acest proiect, numit eDTLR, în ciuda granturilor câștigate și a unei propagande recente, concepută să escamoteze realitatea.

Astăzi dexonline este o referință certă, fiind prima resursă românească menționată pe Lexilogos. Potrivit publicației Jurnalul.ro, dexonline a avut în 2023, 290 de milioane de accesări. Oare această extraordinară bibliotecă de dicționare aliniate, privilegiind limba contemporană, nu ar fi meritat să fie menționată cum se cuvine în articolul dnei Tamba? Din păcate, cercetătoarea nu scoate o vorbă despre această platformă, menționând Soliromul, unde DLR-ul, marele dicționar al limbii române, disponibilizat online de Institutul din Iași, avea doar 11.196 de vizualizări din 2022 până pe 27.07.2025, ora 21:37.

În continuarea articolul său, dna Elena Tamba își propune o analiză comparată a Dicționarului limbii române cu lucrări similare din lexicografia europeană. Comparația privește numărul de volume, numărul de cuvinte și numărul de citări. Iată și lista supusă discuției:

Dicționarul limbii române (DA-DLR), 2010 — prima ediție tipărită, 14 tomuri, 37 de volume, mai mult de 175 000 de intrări (cu variante) și mai mult de 1.300 000 de citări;

Dictionnaire de l’Académie Française (DAF), 1694 — prima ediție tipărită; 9 ediții, consultabil online, 55.000 de intrări;

Diccionario de la lengua española de la Real Academia Española (DRAE), 1780 — prima ediție tipărită; 23 de ediții — 2014; 93 111 de leme; primul format digital: 1992;

Deutsches Wörterbuch der Grimm (DWB), 1838-1961, 32 de volume, 350.000 de intrări și variante; primul format digital: 1997–2004;

Oxford English Dictionary (OED), prima ediție — 1928, 20 volume (ediția a doua — 1989), 301.100 de intrări, 2.412.400 exemple; primul format digital: 1988;

— Trésor de la Langue Française (TLF), XIXe–XXe siècle, 1971-1994 — prima ediție tipărită; 16 volume, 100.000 de intrări, 270.000 de definiții, 430.000 de exemple; primul format digital: 1990–2004;

— Tesoro della lingua italiana delle origini (TLIO) — online, 44.000 de intrări (37.864 publicate online din 57.000).

Dna Elena Tamba nu pare a cunoaște îndeajuns aceste lucrări, întrucât compară merele cu perele. Nu au ce căuta aici DAF și DRAE care ar trebui comparate cu DEX-ul, nefiind dicționare istorice. TLF are un statut aparte, fiind un dicționar al limbii franceze contemporane, comparabil cu DLRLC de la noi. Nici TLIO nu are ce căuta, întrucât se bazează pe un corpus de limbă veche italiană, majoritatea exemplelor fiind din secolele XIII-XIV.

Așadar, singurele comparații juste sunt cu OED și DWB. Ambele dicționare au fost încheiate înaintea dicționarului românesc, în 1928, respectiv 1961. Criteriile de comparație sunt și ele discutabile. Se compară numărul de volume, dar nu este limpede că vorbim de același format, de același număr de pagini la fiecare volum. În privința numărului de intrări, acesta poate fi un criteriu pertinent. Din păcate, dna Elena Tamba furnizează pentru DLR un număr fals de intrări, afirmând că are mai mult de 175.000 de intrări (cu variante) când, de fapt, abia trece de 150.000. Nici numărul de citate nu este sigur, nu avem nicio numărătoare fiabilă.

Dacă se doreau astfel de comparații, ar fi trebuit să alegem pentru italiană Grande dizionario della lingua italiana (GDLI), publicat de editura UTET. Acesta este un dicționar istoric și normativ care acoperă o gamă largă de vocabular, inclusiv termeni vechi și regionali, cu 183.594 de cuvinte atestate. Pentru limba portugheză, dicționarul Houaiss ar merita analizat, cu 228.500 de intrări. Dicționarul Academiei Suedeze (SAOB) a fost conceput de Academia Suedeză timp de 140 de ani și are 39 de volume, având un număr impresionant de intrări, incluzând cuvinte compuse, sintagme, variante și cuvinte străine. Și exemplele se pot înmulți.

În continuare, dna Elena Tamba prezintă o cronologie pentru Dicționarul limbii române în format electronic. Trebuie spus răspicat că, deși s-a început cu un proiect-pilot în 2005, la Iași, nici azi nu avem încheiată trecerea integrală a acestuia în format digital. Aflăm că „începând cu anul 2021, proiectul a fost reluat la Academia Română ‒ Filiala Iași ca proiect prioritar pentru corectarea și completarea versiunii digitale a eDTLR și includerea acesteia în CLRE.”. Merită semnalat că în timp ce institutul ieșean se chinuie de 20 de ani să ducă la capăt o muncă subvenționată, fiind beneficiar a două granturi, dexonline a disponibilizat deja litera M din dicționarul-tezaur.

Ulterior se trece la prezentarea proiectului CLRE (Corpus lexicografic românesc electronic). „Corpusul reprezintă o colecție de ediții digitale ale celor mai reprezentative dicționare ale limbii române din toate timpurile, aliniate la nivel de intrare și la nivel de categorie lexico-gramaticală.”, se spune în articol.

Început în 2014, la zece ani după lansarea platformei dexonline, proiectul consultabil pe Solirom, cuprinde următoarele opere lexicografice: Dicționarul limbii române (DA-DLR) în PDF, Dicționarul limbii române literare contemporane (DLRLC) în PDF, Dicționarul limbii române moderne (DLRM) în PDF, Dicționar de cuvinte recente (DCR), 2 ediții, în format digital, Dicționarul limbii române, ediția a II-a, în format digital, Dicționarul etimologic al limbii române (DELR) în format digital, Dicționarul ortografic, ortoepic și morfologic al limbii române (DOOM) în format digital, Rumänisch-Deutsches Wörterbuch (Dicționar român-german), de H. Tiktin, în format digital, Dicționarul explicativ al limbii române (DEX-1975) în PDF. Așadar este vorba de 9 dicționare, unul având două ediții.

În ciuda evidenței, dna Elena Tamba afirmă că „în prezent, corpusul CLRE, aflat în continuă dezvoltare, include 62 de dicționare, însumând 124 de volume aflate în diferite stadii de digitalizare, în care fiecărei pagini sau imagini i se atribuie intrări adnotate ca leme sau variante, iar metadatele sunt atașate fiecărei pagini sau imagini (legate de lucrarea din care face parte, numărul paginii, tipul paginii ‒ pagini anterioare, cuprins, pagini finale).”

Oare care ar fi aceste 62 de dicționare? Când se face o prezentare pentru cercetătorii din întreaga lume, nu putem vorbi despre ceea ce visăm, ci despre ceea ce este consultabil.

Se impun urătoarele lămuri: DLR2, DOOM, DELR, DCR, precum și dicționarul bilingv al lui Tiktin au fost disponibilizate în format digital, iar două dintre ele se află și pe dexonline (DCR și DOOM). DLRLC prezentat în format PDF este și pe dexonline, în format digital, deci într-o versiune superioară. DEX-ul din 1975 în PDF nu mai are nicio relevanță pentru publicul larg. Așadar, sigurele dicționare de interes de pe platformă sunt patru: Dicționarul limbii române (DA-DLR), Dicționarul limbii române, ediția a II-a, Dicționarul etimologic al limbii române (DELR) și Rumänisch-Deutsches Wörterbuch (Dicționar român-german). Trebuie, de asemenea, menționat faptul că cele două formate, PDF și digital, împiedică crearea unei soluții avansate de căutare, ceea ce duce la concluzia că Solirom este o platformă hibridă, mediocră și puțin dezvoltată în comparație cu dexonline. De aici se naște întrebarea: sunt oare conștienți lexicografii ieșeni de faptul că nu au nimic modern de arătat lumii?

Dna Elena Tamba consideră că și în această privință ne putem compara cu platformele europene:

„— Das Wörterbuchnetz — o colecție de 37 dicționare în format digital, creată la Universitatea din Trier, Germania (https://www.woerterbuchnetz. de/);

Diccionarios de la lengua española — bază de date conținând dicționare editate și publicare de Real Academia Española (Diccionario de la lengua española | Edición del Tricentenario | RAE – ASALE);

— corpus lexicografic pentru limba franceză realizat de Ortolang. Softuri și resurse pentru tratamentul optimizat al limbii, Centre National de Ressources Textuelles et Lexicales — https://cnrtl.fr/ dictionnaires/modernes/, etc.”

Așa cum era de bănuit, lipsește din listă tocmai dexonline, cea mai importantă platformă românească, unde sunt aliniate următoarele lucrări preluate integral. Iată lista acestora (https://dexonline.ro/surse): DEX (2009, 1998), MDA2 (2010), DLRLC (1955-1957), DOOM (2021, 2005), Ortografic (2002), Sinonime (2002), Sinonime82, DAS (1978), Antonime (2002), DN (1986), MDN (2000), DCR2 (1997), DER (1958-1966), NODEX (2002), Mitologic (1969), Șăineanu (1929), Scriban (1939), Petro-Sedim (1999), GTA, DTM (2010), Argou (2007), DRAM (2021 și 2015), DTL (1998), MEO (1975), DETS (1987), DFS (1995), MDO (1953), IVO-III (1941), MDTL (1979), CECC (1968).

Cum putem compara modesta Solirom cu platforma germană, cea mai complexă din lume, cu seria de dicționare spaniole, unde se află Tesoro de los diccionarios históricos de la lengua española (TDHLE) și excepționalul Diccionario histórico de la lengua española, un adevărat model pentru viitorul DLR, dacă vom avea vreodată așa ceva, sau cu Ortolang care publică, pe lângă TLFi, trei ediții din Dicționarul Academiei Franceze, BDLP, BHVF și DMF (1330-1500)? Astfel de comparații par juste atunci când ai o cultură lingvistică limitată. Condiția sine qua non pentru astfel de comparații era ca eDTLR să fi fost o realitate. Cum se poate înțelege că o platformă academică actuală include lucrări în format PDF și căutări doar după cuvântul-titlu, soluții modeste care nu fac cinste prestigiului pe care Academia noastră îl reclamă?

Dna Elena Tamba este totuși conștientă de carențe, motiv pentru care ne propune să ne consolăm visând la viitor. „Pe măsură ce corpusul crește și mai multe lucrări lexicografice în ediții digitale, fie anastatice, fie create direct în versiuni digitale, devin accesibile publicului, vor fi create noi facilități de consultare pentru publicul-țintă. Un pas esențial care trebuie implementat este alinierea cu eDTLR (atunci când rezultatele finale vor fi disponibile) și, bineînțeles, DLR2.”

Spre final sunt prezentate succint alte proiecte în afara celor din institutele de lingvistică: CoRoLa. Corpus computațional de referință pentru limba română contemporană, foarte greu de folosit datorită unei interfețe neprietenoase, cu severe limitări; Primele dicționare bilingve românești (secolul al XVII-lea); Corpus digital prelucrat și aliniat (eRomLex), https://www.scriptadacoromanica.ro/, interesant și bine conceput; Lexiconul de la Buda, http://bcucluj.ro/ lexiconuldelabuda/site/login.php; DIGIBUC, http://www.digibuc.ro/

Ajungem astfel la punctul de vedere final al cercetătoarei: „Prin urmare, perspectivele lexicografiei românești includ crearea de dicționare digitale bazate pe un corpus textual; dezvoltarea corpusului lexicografic CLRE; alinierea variantelor digitale ale Dicționarului-Tezaur al Limbii Române în CLRE; precum și redactarea și publicarea de dicționare în formate hibride (în format clasic/hârtie și, în același timp, în format digital) sau exclusiv în format clasic.”

Nimic strălucitor la orizont. Promisiunile trecutului sunt proiectate în viitor, fără nicio schimbare care să ne apropie de lumea contemporană. Nu ni se spune nimic de faptul că OED a renunțat să mai fie publicat pe hârtie sau că Dicționarul istoric al limbii spaniole a fost conceput din fașă în format digital. Se vorbește de eDTLR fără să existe vreun proiect de actualizare a dicționarului, cu termene clare, într-o generație.

Din Concluzii, am reținut ultimul paragraf:

„Procesul de digitalizare plasează lexicografia academică românească la un nivel comparabil cu lexicografia internațională și permite conexiuni cu proiecte lexicografice din străinătate și includerea României în sfera de interes a principalelor rețele lexicografice internaționale.”

Aici ne despărțim în mod radical. În accepția mea, lexicografia academică românească este cu decenii rămasă în urmă. Nu avem niciun dicționar cu adevărat electronic, cu o interfață modernă, pe deplin adaptată cerințelor actuale, în special telefoanelor mobile. Toate dicționarele pomenite în acest text, inclusiv cele în format digital, nu sunt altceva decât opere imaginate să apară pe hârtie. Cu excepția DOOM-ului, restul sunt fie neîncheiate, fie dezactualizate. În 2022 se promitea ediția treia a DEX-ului. Iată că suntem în a doua parte a anului 2025 și nici urmă de așa ceva. Oare ce management și ce criterii de performanță au aceste institute?

Dexonline încearcă pe cât posibil să îmbunătățească interfața, creând etichete pentru categoriile morfologice, abrevieri și siglele operelor citate, adăugând imagini. Platforma include și un flexionator. Tot aici se propune o sinteză a informațiilor conținute în toate articolele, obținându-se astfel o viziune completă asupra dicționarelor și, totodată, un model pentru ceea ce ar putea fi numit un dicționar digital dedus dintr-o bază de date lexicografice.

Aș atrage în încheiere atenția asupra unor provocări cu care se confruntă lexicografia digitală românească:

  1. Digitalizarea parțială a patrimoniului: multe dicționare specializate sau istorice nu au fost încă digitalizate, restricționând accesibilitatea online.
  2. Chestiuni legate de calitate și precizie: tranziția digitală trebuie să păstreze rigoarea științifică. Există încă riscuri legate de erorile de introducere a datelor, inconsecvențele dintre hârtie și suportul digital sau lipsa unor protocoale stricte de validare.
  3. Constrângeri tehnologice: integrarea instrumentelor avansate (procesarea automată a limbajului, inteligența artificială etc.) rămâne inegală. Unele proiecte întâmpină obstacole legate de lipsa resurselor financiare sau umane.
  4. Promovare și vizibilitate internațională limitate: în ciuda progreselor înregistrate, producția lexicografică românească rămâne puțin prezentă pe scena mondială, în special din cauza lipsei de traduceri și interfețe multilingve.

În pofida unor progrese semnificative determinate de dorința de modernizare, provocările persistă, în special în ceea ce privește resursele, infrastructura tehnică și echilibrul dintre tradiție și inovație.

Viitorul lexicografiei românești va depinde de capacitatea instituțiilor sale de a se integra în rețelele internaționale, de a adopta tehnologii avansate și de a mobiliza comunitatea lingvistică în jurul valorificării patrimoniului lexical. Digitalizarea este o transformare profundă a relației cu limba, cunoașterea și cultura. Analiza ne invită astfel la o reflecție asupra responsabilității colective în păstrarea și evoluția limbii române în era digitală.

Autor: Prof. Dan Caragea (Lisabona, Portugalia)
Publicat în: Occidentul Românesc

Nota redacției:

Dan Caragea este critic, eseist, publicist și traducător, cu o impresionantă activitate academică și editorială. Lusitanist de prestigiu, specialist în psihologie și lingvistică computațională, Dan Caragea este colaborator voluntar al publicației Occidentul Românesc încă din anul 2011.

Absolvent al Facultății de Limba și Literatura Română, cu specializare secundară în limba și literatura portugheză, este doctor în psihologie. Între 1978 și 1990, a fost profesor de limba română și asistent universitar la Facultatea de Limbi și Literaturi Străine din București, unde a predat limba portugheză. A semnat manuale de portugheză și a colaborat constant cu reviste culturale din România.

În perioada 1991–1993, a fost bursier al Institutului Camões din Lisabona, autor al unui manual de portugheză pentru străini și director al societății Cyberlex, coordonând versiunile portugheză și spaniolă ale celebrului program de analiză semantică Tropes. Între 2009 și 2015, a activat ca expert în cadrul UEFISCDI, contribuind la realizarea versiunii românești a programului Tropes și dezvoltând un software inovator pentru detectarea similitudinilor textuale (Semplag). În 2013, publică împreună cu Adrian Curaj, la Editura Academiei, volumul Analiza automată a discursului.

În 2017, coordonează, la Lisabona, un amplu album dedicat relațiilor culturale și diplomatice româno-portugheze, în calitate de coautor. În anii 2018–2019, activează ca expert al Institutului de Lingvistică „Iorgu Iordan – Al. Rosetti” din București, contribuind la implementarea proiectului Romtext. Este, de asemenea, colaborator al revistei culturale Leviatan.