RESURSELE LIMBII ROMÂNE ON-LINE: Solirom II, de Dan Caragea

595

Solirom este, în prezent, singura platformă care oferă publicului acces la monumentalul Dicționar al limbii române (DLR, 1913–2010), cea mai amplă lucrare lexicografică din istoria limbii române. Este vorba despre o versiune digitalizată a ediției anastatice apărute în 2010, ce reunește toate volumele publicate de-a lungul a peste o sută de ani, păstrând ortografia originală și fără nicio intervenție asupra textului.

„Cea mai vastă operă” nu echivalează însă cu „cea mai bogată” din punctul de vedere al macrostructurii (adică al numărului total de intrări). Dacă DLR-ul însumează aproximativ 150.000 de intrări, Micul dicționar academic (MDA), versiune condensată și actualizată, include 175.000 de termeni (125.000 cuvinte propriu-zise și 50.000 variante lexicale), conform informațiilor editoriale.

Amploarea marelui dicționar constă în volumul impresionant de citate ilustrative, acoperind toate etapele limbii, toate regiunile și graiurile. Paradoxal însă, această bogăție adesea redundantă, uneori irelevantă semantic și presărată cu forme stâlcite, îl face dificil de consultat pentru publicul larg. Nu întâmplător, din anul 2022 și până azi s-au înregistrat doar 9.594 de accesări.

În contrast, MDA-ul, care a renunțat la citate, poate părea „neclar” pentru cititorul contemporan, lipsit de sprijinul unor exemple ilustrative. O soluție de compromis, precum cea adoptată în DLRLC (1955–1957), care oferă cel puțin un exemplu semnificativ, ar fi fost ideală, dar greu de aplicat. Cuvintele recente, preluate din DEX și dicționarele de neologisme, nu dispun de atestări și nu pot fi ilustrate.

Un dicționar din alt secol

Redactat de-a lungul unui secol, DLR-ul reflectă normele ortografice ale epocilor traversate. Articolele din primele volume (de la literele A, B) nu au amploarea și consistența celor din seria nouă. Lucrarea a rămas, inevitabil, parțial anacronică, iar un plan de actualizare nu se întrevede. Chiar dacă s-au păstrat normele istorice pentru coerență, temeiurile gramaticale și arhitectura articolelor nu mai corespund exigențelor lexicografice actuale.

Slăbiciunea majoră se regăsește în secțiunea etimologică. Din păcate, nici până astăzi Academia nu a finalizat un dicționar etimologic complet. Soluția magistrală propusă de Al. Scriban (1939) a rămas singulară. Nici proiectul DELR (Dicționarul etimologic al limbii române), în curs de elaborare, nu pare să progreseze semnificativ: articolele lucrate (A–D) folosesc aceleași surse bibliografice insuficiente, evitând lărgirea corpusului de texte (traduceri, periodice, documente administrative etc.).

În aceste condiții, chiar și cu îmbunătățiri, precum cele din fascicula A–Ab (ediția II, 2021), dar cu actualul model de management al institutelor lingvistice ale Academiei, nu există nicio speranță realistă de a încheia o ediție modernizată într-un termen rezonabil.

Un apel pentru salvarea lexicografiei românești

Spus direct: singura cale de a menține dicționarul viu, accesibil și actualizat este transformarea sa într-o bază de date electronică, așa cum au făcut Oxford English Dictionary sau Diccionario histórico de la lengua al Academiei Regale Spaniole. E nevoie de un proiect internațional, finanțat de statul român și de Uniunea Europeană. Ar fi necesari informaticieni specializați, soluții de inteligență artificială, un buget adecvat, un management profesionist și o foaie de parcurs riguroasă. Continuarea metodei tradiționale este, fără echivoc, sortită eșecului.

Ce oferă, concret, Solirom?

Platforma Solirom permite consultarea DLR-ului online, dar cu funcționalități limitate. Căutarea este posibilă doar după cuvântul-titlu (putem scrie și fără diacritice), care conduce la pagina digitalizată corespunzătoare. Termenii se regăsesc în ortografia originală cu accentuări specifice (ex.: MÎNCÁ pentru „mânca”). Căutarea directă după forma veche nu oferă rezultate, utilizatorul este obligat să aleagă din lista generată de motorul de căutare.

Platforma permite și filtrarea intrărilor după categoria gramaticală, funcție utilă doar pentru cercetări specializate. Din păcate, din cauza lipsei unei ediții electronice reale, nu se pot efectua căutări interne (în definiții, exemple sau surse). Paginile sunt OCR-izate, dar calitatea acestui proces este slabă. În concluzie, deși binevenită, soluția Solirom este, tehnic vorbind, rudimentară și nedemnă de prestigiul Academiei Române.

Un proiect-fantomă: eDTLR

Ce s-a întâmplat cu adevăratul proiect digital? Institutul „A. Philippide” din Iași anunța încă din 2007 lansarea eDTLR (ediția digitală a DLR), într-un parteneriat ambițios cu institute ale Academiei și universități. Obiectivul era clar: digitalizarea celor 36 de volume ale DLR-ului, cu peste 1.300.000 de exemple. Finanțator: Ministerul Educației. Buget: 1.981.090 RON. Perioadă: septembrie 2007 – decembrie 2010.

Proiectul ar fi trebuit să genereze fișiere XML TEI-P5, indexare, scanări OCR, analiză lexicală. Dar accesul la pagina oficială a proiectului a fost întrerupt, iar rezultatele nu sunt publice. Într-un interviu, coordonatorul Dan Cristea afirmă că versiunea digitală „există”, dar nu poate fi lansată. Cercetările mele la București, la Institutul „Iorgu Iordan – Al. Rosetti”, nu au condus la nicio confirmare. Nimeni nu știe ce s-a realizat, în ce stadiu se află proiectul sau unde este „ținut sub cheie”.

Întrebarea firească: dacă eDTLR ar fi fost funcțional, de ce mai era nevoie de versiunea Solirom? Și cum se explică tăcerea totală a autorilor implicați, după ce inițial publicau articole entuziaste? Este acest proiect un eșec birocratic sau o fraudă? Rămâne un mister.

Un posibil început?

Singurele articole DLR recuperate digital până în prezent sunt cele disponibile pe platforma dexonline. Ele dovedesc că un astfel de proces este posibil, dar și că presupune o muncă imensă: uniformizarea ortografiei, datarea citatelor, unificarea bibliografiei și actualizarea întregului corpus.

Această muncă titanică este vizibilă în fasciculele publicate ale ediției a II-a din DLR. Despre această ediție, despre direcțiile ei noi, dar și despre ce înseamnă, astăzi, un dicționar modern al limbii române, vom discuta pe larg în articolele viitoare.

Autor: Prof. Dan Caragea (Lisabona, Portugalia)
Publicat în: Occidentul Românesc, ediția lunară nr. 168, Anul XV

Nota redacției: 

Dan Caragea este critic, eseist, publicist și traducător, cu o impresionantă activitate academică și editorială. Lusitanist de prestigiu, specialist în psihologie și lingvistică computațională, Dan Caragea este colaborator voluntar al publicației Occidentul Românesc din 2011.

Absolvent al Facultății de Limba și Literatura Română (specializarea secundară: Limba și literatura portugheză), este doctor în Psihologie. În perioada 1978–1990, a fost profesor de limba română și asistent universitar la Facultatea de Limbi și Literaturi Străine din București, unde a predat limba portugheză. A semnat manuale de limbă portugheză și a colaborat cu reviste culturale din România.

Între 1991 și 1993, a fost bursier al Institutului Camões din Lisabona, autor al unui manual de portugheză pentru străini și director al societății Cyberlex, coordonând versiunile portugheză și spaniolă ale celebrului program de analiză semantică Tropes. În perioada 2009–2015, activează ca expert la UEFISCDI, realizând versiunea românească a Tropes și dezvoltând un software pentru detectarea similitudinilor (Semplag). În 2013 publică, la Editura Academiei, lucrarea Analiza automată a discursului, în colaborare cu Adrian Curaj.

În 2017, coordonează, la Lisabona, un amplu album dedicat relațiilor culturale și diplomatice româno-portugheze, în calitate de coautor. În anii 2018–2019, este expert al Institutului de Lingvistică „Iorgu Iordan – Al. Rosetti” din București, contribuind la implementarea proiectului Romtext. Colaborează și cu revista culturală Leviatan.