DeLORo

Informații proiect

Denumire

Artificial Intelligence Models (Deep Learning) Applied in the Analysis of Old Romanian Language (DeLORo Deep Learning for Old Romanian)

Cod proiect

PN-III-P2-2.1-PED-2019-3952

Perioada de derulare

23 octombrie 2020 — 22 octombrie 2022

Ofițer de proiect UEFISCDI

Cătălin Comarița

Obiectiv

Scopul final al proiectului este de a construi o tehnologie capabilă să transcrie automat documente românești scrise în chirilică în echivalentele lor latine, pentru a fi plasată la baza viitoarelor studii lingvistice și semantice ale limbii române. Din acest motiv, nu avem intenția de a transforma limba veche în forma sa modernă. Cercetarea lingvistică, conservarea bunurilor culturale, necesitatea de a păstra viu „sunetul” limbii, impun ca particularități lingvistice străvechi, care îl fac să pară diferit de româna zilelor noastre cu privire la morfologie, sintaxă și semantică, ar trebui lăsate neatinse. Numai astfel vom putea dezvălui influențe lingvistice și istorice.

Istoric

Scrierea chirilică este un sistem de scriere folosit în diferite limbi din Europa de Est, Caucaz, Asia Centrală și de Nord, folosit ca sistem de scriere național în diverse țări vorbitoare de limbă slavă, turcă, mongolică și iraniană. Designerii și primul distribuitor al acestei scrieri au fost teologii bizantini și frații misionari Chiril (826-869) și Methodius (815-885), cunoscuți și ca „Apostoli slavi” pentru evanghelizare a slavilor. Ei sunt creditați ca inventatori ai alfabetelor glagolitic și chirilic, primele alfabete folosite pentru transcrierea slavonei bisericești vechi. Acesta a fost limbajul pe înțelesul populației slave din timpul lor și în care cei doi frați au decis să traducă cărți liturgice.

După migrațiile slavilor, slavona a devenit și limba liturgică a Bisericii Ortodoxe de Est din România de azi.

Dar, în afară de țările slave, vechea slavonă bisericească a fost folosită ca limbaj administrativ (până în secolul al XVI-lea) și un limbaj liturgic de către Biserica Ortodoxă Română (până în secolul al XVII-lea).

Deși limba nu era înțeleasă de majoritatea românilor, era cunoscută de episcopi, călugări, unii dintre preoți, grefieri, negustori, boieri și Prinț, suficient pentru a fi limba literară și oficială a principatelor Țării Românești și Moldovei, înainte de a fi treptat înlocuită de limba română în secolele XVI-XVII. Cu toate acestea, un alfabet chirilic aparte a circulat ca principal sistem de scriere pe teritoriul României istorice, cu ușoare variații individualizate prin diferențe în grafeme sau valorile lor fonetice.

Această situație s-a schimbat în 1828, când scriitorul, filosoful și lingvistul Ion Heliade Rădulescu a transformat în întregime alfabetul chirilic românesc într-un sistem fonologic. Adoptarea formală a alfabetului latin la care s-au adăugat diacritice specifice (accente și virgule), înlocuind chirilica, a fost impusă în 1862 de Alexandru Ioan Cuza, la acea vreme – prinț al Moldovei, după o perioadă de tranziție care a durat câteva decenii.

Apoi, la începutul celui de-al doilea război mondial, o dată ce partea estică a Moldovei a fost încorporată în Uniunea Sovietică, în noua Republică Sovietică Socialistă Moldova administrația sovietică a impus ca limba română să fie scrisă în chirilica rusă, scriere folosită pe întreg teritoriul sovietic. Această situație s-a schimbat în 1991, imediat după ce noua Republică Moldova și-a dobândit independenţa.

Platforma tehnologică

Tehnologia pe care o dezvoltă proiectul DeLORo nu a mai fost implementată până acum.

Principalele dificultăți în interpretarea scrierilor românești chirilice sunt legate de:

  1. Imagini greu de procesat, rezultate din scanări de pagini de documente vechi, în multe cazuri deformate sau având zone murdare sau deteriorate (cerneală și alte pete);
  2. Diversitatea textului, combinații de text și figuri, inechitate de fonturi, scriere uncială și scriere de mână executate de diferiți copiști, erori de copiere sau tipărire, note marginale, scriere interliniară, decorațiuni;
  3. Utilizarea (conform unei tradiții bine respectate) a valorilor multiple pentru unele glife chirilice;
  4. Lipsa regulilor de sintaxă și modificări diacronice care în mod natural au avut loc în evoluția limbii române (fonetice, morfologice, lexicale, sintactice).

Tehnologia finală și corpusurile colectate pentru antrenarea modelelor vor fi depuse pe o platformă care poate fi accesată în mod liber de către utilizatori experți pentru cercetare și scopuri educaționale sau pentru a produce variante adnotate, interpretative și critice ale textelor originale.