E-mail

Informații proiect

Denumire Artificial Intelligence Models (Deep Learning) Applied in the Analysis of Old Romanian Language ( DeLORo Deep Learning for Old Romanian)
Cod proiect PN-III-P2-2.1-PED-2019-3952
Perioada de derulare 23 octombrie 2020 — 22 octombrie 2022
Ofițer de proiect UEFISCDI Cătălin Comarița

Obiectiv

Scopul final al proiectului este de a construi o tehnologie capabilă să transcrie automat documente românești scrise în chirilică în echivalentele lor latine, pentru a fi plasată la baza viitoarelor studii lingvistice și semantice ale limbii române. Din acest motiv, nu avem intenția de a transforma limba veche în forma sa modernă. Cercetarea lingvistică, conservarea bunurilor culturale, necesitatea de a păstra viu „sunetul” limbii, impun ca particularități lingvistice străvechi, care îl fac să pară diferit de româna zilelor noastre cu privire la morfologie, sintaxă și semantică, ar trebui lăsate neatinse. Numai astfel vom putea dezvălui influențe lingvistice și istorice.

Istoric

Scrierea chirilică este un sistem de scriere folosit în diferite limbi din Europa de Est, Caucaz, Asia Centrală și de Nord, folosit ca sistem de scriere național în diverse țări vorbitoare de limbă slavă, turcă, mongolică și iraniană. Designerii și primul distribuitor al acestei scrieri au fost teologii bizantini și frații misionari Chiril (826-869) și Methodius (815-885), cunoscuți și ca „Apostoli slavi” pentru evanghelizare a slavilor. Ei sunt creditați ca inventatori ai alfabetelor glagolitic și chirilic, primele alfabete folosite pentru transcrierea slavonei bisericești vechi. Acesta a fost limbajul pe înțelesul populației slave din timpul lor și în care cei doi frați au decis să traducă cărți liturgice.

După migrațiile slavilor, slavona a devenit și limba liturgică a Bisericii Ortodoxe de Est din România de azi.

Dar, în afară de țările slave, vechea slavonă bisericească a fost folosită ca limbaj administrativ (până în secolul al XVI-lea) și un limbaj liturgic de către Biserica Ortodoxă Română (până în secolul al XVII-lea).

Deși limba nu era înțeleasă de majoritatea românilor, era cunoscută de episcopi, călugări, unii dintre preoți, grefieri, negustori, boieri și Prinț, suficient pentru a fi limba literară și oficială a principatelor Țării Românești și Moldovei, înainte de a fi treptat înlocuită de limba română în secolele XVI-XVII. Cu toate acestea, un alfabet chirilic aparte a circulat ca principal sistem de scriere pe teritoriul României istorice, cu ușoare variații individualizate prin diferențe în grafeme sau valorile lor fonetice.

Această situație s-a schimbat în 1828, când scriitorul, filosoful și lingvistul Ion Heliade Rădulescu a transformat în întregime alfabetul chirilic românesc într-un sistem fonologic. Adoptarea formală a alfabetului latin la care s-au adăugat diacritice specifice (accente și virgule), înlocuind chirilica, a fost impusă în 1862 de Alexandru Ioan Cuza, la acea vreme - prinț al Moldovei, după o perioadă de tranziție care a durat câteva decenii.

Apoi, la începutul celui de-al doilea război mondial, o dată ce partea estică a Moldovei a fost încorporată în Uniunea Sovietică, în noua Republică Sovietică Socialistă Moldova administrația sovietică a impus ca limba română să fie scrisă în chirilica rusă, scriere folosită pe întreg teritoriul sovietic. Această situație s-a schimbat în 1991, imediat după ce noua Republică Moldova și-a dobândit independenţa.

Platforma tehnologică

Tehnologia pe care o dezvoltă proiectul DeLORo nu a mai fost implementată până acum.

Principalele dificultăți în interpretarea scrierilor românești chirilice sunt legate de:

  1. Imagini greu de procesat, rezultate din scanări de pagini de documente vechi, în multe cazuri deformate sau având zone murdare sau deteriorate (cerneală și alte pete);
  2. Diversitatea textului, combinații de text și figuri, inechitate de fonturi, scriere uncială și scriere de mână executate de diferiți copiști, erori de copiere sau tipărire, note marginale, scriere interliniară, decorațiuni;
  3. Utilizarea (conform unei tradiții bine respectate) a valorilor multiple pentru unele glife chirilice;
  4. Lipsa regulilor de sintaxă și modificări diacronice care în mod natural au avut loc în evoluția limbii române (fonetice, morfologice, lexicale, sintactice).

Tehnologia finală și corpusurile colectate pentru antrenarea modelelor vor fi depuse pe o platformă care poate fi accesată în mod liber de către utilizatori experți pentru cercetare și scopuri educaționale sau pentru a produce variante adnotate, interpretative și critice ale textelor originale.

Parteneri

Colaboratori externi

Membri

Speranța Cecilia Bolea

Ec. Speranța Cecilia Bolea (ARFI-IIT), cercetător științific.

Horia Radu Borza

Horia Radu Borza (dexonline).

Dan Cristea

Prof. dr. Dan Cristea - m.c.A.R. (ARFI-IIT), cercetător științific I.

Paula Alexandra Crucianu

Dr. ec. Paula Alexandra Crucianu (ARFI-IIT), referend.

Gabriela Dumitrescu

Gabriela Dumitrescu (BAR).

Mihaela Găman

Drd. Mihaela Găman (UB), asistent cercetare științifică.

Daniela Gîfu

Dr. Daniela Gîfu (UAIC-Informatică & ARFI-IIT), cercetător științific III.

Gabriela Haja

Dr. Gabriela Haja (ARFI-Philippide), cercetător științific I.

Radu Ionescu

Conf dr. Radu Ionescu (UB), cercetător științific.

Mihaela Plămadă Onofrei

Dr. Mihaela Plămadă Onofrei (ARFI-IIT), cercetător științific.

Cristian Pădurariu

Drd. Cristian Pădurariu (UAIC-Informatică, ARFI-IIT), asistent cercetare științifică.

Marius Popescu

Conf. dr. Marius Popescu (UB).

Petru Rebeja

Drd. Petru Rebeja (UAIC-Informatică), asistent cercetare științifică.

Liviu Andrei Scutelnicu

Drd. Liviu Andrei Scutelnicu (UAIC-Informatica & ARFI-IIT), asistent cercetare științifică.

Elena (Isabelle) Tamba

Dr. Elena (Isabelle) Tamba (ARFI-Philippide), cercetător științific I.

Roxana Vieru

Lect. dr. Roxana Vieru (UAIC-Litere).

Contact

Pentru detalii vă rugăm să contactați unul din responsabilii de proiect: