E-mail

Informații proiect

Denumire Artificial Intelligence Models (Deep Learning) Applied in the Analysis of Old Romanian Language ( DeLORo Deep Learning for Old Romanian)
Cod proiect PN-III-P2-2.1-PED-2019-3952
Perioada de derulare 23 octombrie 2020 — 22 octombrie 2022
Finanțator Unitatea Executivă pentru Finanțarea Învățământului Superior, a Cercetării, Dezvoltării și Inovării
Valoare Proiect 589.414 Lei

Obiectiv

Scopul final al proiectului este construirea unei tehnologii capabile să transcrie automat documente românești scrise în alfabet chirilic în echivalentele lor în alfabet latin, pentru a facilita viitorele studii lingvistice și filologice ale limbii române. În procesul de transpunere automată a alfabetului chirilic în alfabet latin se va avea în vedere respectarea textului originar, pentru a putea pune la dispoziția specialiștilor filologi o variantă de lucru cât mai fidelă. După etapa echivalării cu litere latine a slovelor care nu pun probleme, se va trece la un proces de decizie, pe bază de lexicon, pentru o variantă sau alta de transcriere a slovelor care au două sau mai multe valori fonetice.

Istoric

Alfabetul chirilic a fost folosit pentru scrierea în diferite limbi din Europa de Est, Caucaz, Asia Centrală și de Nord. Creatorii și cei care au contribuit la răspândirea acestei scrieri au fost teologii bizantini și frații misionari Chiril (826-869) și Methodius (815-885), cunoscuți și ca „Apostoli slavi” pentru evanghelizarea slavilor. Prin tradiție, cei doi sunt considerați autorii alfabetelor glagolitic și chirilic, primele folosite pentru scrierea slavonei bisericești vechi. În efortul de creștinare a slavilor, cei doi teologi au tradus textele liturgice în slavonă, a treia limbă recunoscută ca fiind canonică, alături de greacă și latină.

Dar, în afară de țările slave, vechea slavonă bisericească a fost folosită ca limbaj administrativ (până în secolul al XVI-lea) și ca limbaj liturgic de către Biserica Ortodoxă din Țările Române până în secolul al XVI-lea, când încep să circule primele traduceri românești ale textelor liturgice.

Deși limba nu era înțeleasă de majoritatea românilor, era cunoscută de episcopi, călugări, unii dintre preoți, grefieri, negustori, boieri și domnitori, suficient pentru a fi limba literară și oficială a principatelor Țării Românești și Moldovei, înainte de a fi treptat înlocuită de limba română în secolele XVI-XVII. Cu toate acestea, un alfabet chirilic aparte a circulat ca principal sistem de scriere pe teritoriul României istorice, cu ușoare variații individualizate prin diferențe în grafeme sau valorile lor fonetice până la începutul secolului al XIX-lea (până spre finalul secolului, în textele religioase).

În 1828, când a publicat Gramatica românească, scriitorul, filosoful și lingvistul Ion Heliade Rădulescu propune un model de simplificare a alfabetului chirilic și un sistem ortografic fonetic. În această perioadă începe să fie folosit alfabetul de tranziție, în care literele latine sunt introduse, treptat, printre slovele chirilice moderne. Adoptarea formală a alfabetului latin la care s-au adăugat diacritice specifice (accente și virgule), înlocuind alfabetul de tranziție, a fost impusă în 1862 de Alexandru Ioan Cuza, la acea vreme – domnitor al Moldovei și Țării Românești, după o perioadă de tranziție care a durat câteva decenii.

Apoi, la începutul celui de-al doilea război mondial, o dată ce partea estică a Moldovei a fost încorporată în Uniunea Sovietică, în noua Republică Sovietică Socialistă Moldova administrația sovietică a impus ca limba română să fie scrisă în în varianta rusească a alfabetului chirilic, folosit pe întregul teritoriu sovietic. Această situație s-a schimbat în 1991, imediat după ce noua Republică Moldova și-a dobândit independenţa, revenindu-se la scrierea cu alfabet latin.

Platformă tehnologică (OOCIAT)

Tehnologia pe care o dezvoltă proiectul DeLORo nu a mai fost implementată până acum.

Principalele dificultăți în interpretarea scrierilor românești chirilice sunt legate de:

  1. Imagini greu de procesat, rezultate din scanări de pagini de documente vechi, în multe cazuri deformate sau având zone murdare ori deteriorate (cerneală și alte pete);
  2. Diversitatea textului, combinații de text și figuri, fonturi inegale ca dimensiuni, formă etc., scriere semiuncială și scriere de mână executate de diferiți copiști, erori de copiere sau tipărire, note marginale, scriere interliniară, decorațiuni;
  3. Prezența slovelor chirilice cu valori fonetice multiple, diferite de la o epocă la alta sau de la o zonă geografică la alta, în absența unui sistem ortografic unitar și consecvent;
  4. Modificările apărute la diverse niveluri ale limbii ca urmare a evoluției sale firești (lexicale, morfologice, sintactice).

Tehnologia finală și corpusurile colectate pentru antrenarea modelelor vor fi depuse pe o platformă care poate fi accesată în mod liber de către utilizatori experți, pentru cercetare și în scopuri educaționale sau pentru a produce variante adnotate, interpretative și critice ale textelor originale.

Parteneri

Colaboratori externi

Membri

Speranța Cecilia Bolea

Ec. Speranța Cecilia Bolea (ARFI-IIT), cercetător științific.

Horia Radu Borza

Horia Radu Borza (dexonline).

Dan Cristea

Prof. dr. Dan Cristea - m.c.A.R. (ARFI-IIT), cercetător științific I.

Paula Alexandra Crucianu

Dr. ec. Paula Alexandra Crucianu (ARFI-IIT), referend.

Mihaela Găman

Drd. Mihaela Găman (UB), asistent cercetare științifică.

Daniela Gîfu

Dr. Daniela Gîfu (UAIC-Informatică & ARFI-IIT), cercetător științific III.

Gabriela Haja

Dr. Gabriela Haja (ARFI-IFRI), cercetător științific I.

Radu Ionescu

Conf dr. Radu Ionescu (UB), cercetător științific.

Mihaela Plămadă Onofrei

Dr. Mihaela Plămadă Onofrei (ARFI-IIT), cercetător științific.

Cristian Pădurariu

Drd. Cristian Pădurariu (UAIC-Informatică, ARFI-IIT), asistent cercetare științifică.

Marius Popescu

Conf. dr. Marius Popescu (UB).

Petru Rebeja

Drd. Petru Rebeja (UAIC-Informatică), asistent cercetare științifică.

Liviu Andrei Scutelnicu

Dr. Liviu Andrei Scutelnicu (UAIC-Informatica & ARFI-IIT), asistent cercetare științifică.

Elena (Isabelle) Tamba

Dr. Elena (Isabelle) Tamba (ARFI-IFRI), cercetător științific I.

Roxana Vieru

Lect. dr. Roxana Vieru (UAIC-Litere).

Colaboratori externi

Gabriela Dumitrescu

Gabriela Dumitrescu (BAR).

Marilena Bănică

Marilena Bănică (BAR).

Rezultate

Etapa I

Etapa II

Diseminare

Publicații

Rapoarte

Contact

Pentru detalii vă rugăm să contactați unul din responsabilii de proiect: