Informații proiect

Denumire	Artificial Intelligence Models (Deep Learning) Applied in the Analysis of Old Romanian Language ( DeLORo Deep Learning for Old Romanian)
Cod proiect	PN-III-P2-2.1-PED-2019-3952
Perioada de derulare	23 octombrie 2020 — 22 octombrie 2022
Finanțator	Unitatea Executivă pentru Finanțarea Învățământului Superior, a Cercetării, Dezvoltării și Inovării
Valoare Proiect	589.414 Lei

Obiectiv

Scopul final al proiectului este construirea unei tehnologii capabile să transcrie automat documente românești scrise în alfabet chirilic în echivalentele lor în alfabet latin, pentru a facilita viitorele studii lingvistice și filologice ale limbii române. În procesul de transpunere automată a alfabetului chirilic în alfabet latin se va avea în vedere respectarea textului originar, pentru a putea pune la dispoziția specialiștilor filologi o variantă de lucru cât mai fidelă. După etapa echivalării cu litere latine a slovelor care nu pun probleme, se va trece la un proces de decizie, pe bază de lexicon, pentru o variantă sau alta de transcriere a slovelor care au două sau mai multe valori fonetice.

Istoric

Alfabetul chirilic a fost folosit pentru scrierea în diferite limbi din Europa de Est, Caucaz, Asia Centrală și de Nord. Creatorii și cei care au contribuit la răspândirea acestei scrieri au fost teologii bizantini și frații misionari Chiril (826-869) și Methodius (815-885), cunoscuți și ca „Apostoli slavi” pentru evanghelizarea slavilor. Prin tradiție, cei doi sunt considerați autorii alfabetelor glagolitic și chirilic, primele folosite pentru scrierea slavonei bisericești vechi. În efortul de creștinare a slavilor, cei doi teologi au tradus textele liturgice în slavonă, a treia limbă recunoscută ca fiind canonică, alături de greacă și latină.

Dar, în afară de țările slave, vechea slavonă bisericească a fost folosită ca limbaj administrativ (până în secolul al XVI-lea) și ca limbaj liturgic de către Biserica Ortodoxă din Țările Române până în secolul al XVI-lea, când încep să circule primele traduceri românești ale textelor liturgice.

Deși limba nu era înțeleasă de majoritatea românilor, era cunoscută de episcopi, călugări, unii dintre preoți, grefieri, negustori, boieri și domnitori, suficient pentru a fi limba literară și oficială a principatelor Țării Românești și Moldovei, înainte de a fi treptat înlocuită de limba română în secolele XVI-XVII. Cu toate acestea, un alfabet chirilic aparte a circulat ca principal sistem de scriere pe teritoriul României istorice, cu ușoare variații individualizate prin diferențe în grafeme sau valorile lor fonetice până la începutul secolului al XIX-lea (până spre finalul secolului, în textele religioase).

În 1828, când a publicat Gramatica românească, scriitorul, filosoful și lingvistul Ion Heliade Rădulescu propune un model de simplificare a alfabetului chirilic și un sistem ortografic fonetic. În această perioadă începe să fie folosit alfabetul de tranziție, în care literele latine sunt introduse, treptat, printre slovele chirilice moderne. Adoptarea formală a alfabetului latin la care s-au adăugat diacritice specifice (accente și virgule), înlocuind alfabetul de tranziție, a fost impusă în 1862 de Alexandru Ioan Cuza, la acea vreme – domnitor al Moldovei și Țării Românești, după o perioadă de tranziție care a durat câteva decenii.

Apoi, la începutul celui de-al doilea război mondial, o dată ce partea estică a Moldovei a fost încorporată în Uniunea Sovietică, în noua Republică Sovietică Socialistă Moldova administrația sovietică a impus ca limba română să fie scrisă în în varianta rusească a alfabetului chirilic, folosit pe întregul teritoriu sovietic. Această situație s-a schimbat în 1991, imediat după ce noua Republică Moldova și-a dobândit independenţa, revenindu-se la scrierea cu alfabet latin.

Platformă tehnologică (OOCIAT)

Tehnologia pe care o dezvoltă proiectul DeLORo nu a mai fost implementată până acum.

Principalele dificultăți în interpretarea scrierilor românești chirilice sunt legate de:

Imagini greu de procesat, rezultate din scanări de pagini de documente vechi, în multe cazuri deformate sau având zone murdare ori deteriorate (cerneală și alte pete);
Diversitatea textului, combinații de text și figuri, fonturi inegale ca dimensiuni, formă etc., scriere semiuncială și scriere de mână executate de diferiți copiști, erori de copiere sau tipărire, note marginale, scriere interliniară, decorațiuni;
Prezența slovelor chirilice cu valori fonetice multiple, diferite de la o epocă la alta sau de la o zonă geografică la alta, în absența unui sistem ortografic unitar și consecvent;
Modificările apărute la diverse niveluri ale limbii ca urmare a evoluției sale firești (lexicale, morfologice, sintactice).

Tehnologia finală și corpusurile colectate pentru antrenarea modelelor vor fi depuse pe o platformă care poate fi accesată în mod liber de către utilizatori experți, pentru cercetare și în scopuri educaționale sau pentru a produce variante adnotate, interpretative și critice ale textelor originale.

Parteneri

Colaboratori externi

UAIC - Universitatea „Alexandru Ioan Cuza” din Iași
- LIT - Facultatea de Litere
- FII - Facultatea de Informatică
BCU - Biblioteca Centrală Universitară „Mihai Eminescu” Iași
BAR - Biblioteca Academiei Române
- Biblioteca Academiei Române, Filiala Iași
Dexonline

Membri

Ec. Speranța Cecilia Bolea (ARFI-IIT), cercetător științific.

Horia Radu Borza (dexonline).

Prof. dr. Dan Cristea - m.c.A.R. (ARFI-IIT), cercetător științific I.

Dr. ec. Paula Alexandra Crucianu (ARFI-IIT), referend.

Drd. Mihaela Găman (UB), asistent cercetare științifică.

Dr. Daniela Gîfu (UAIC-Informatică & ARFI-IIT), cercetător științific III.

Dr. Gabriela Haja (ARFI-IFRI), cercetător științific I.

Conf dr. Radu Ionescu (UB), cercetător științific.

Dr. Mihaela Plămadă Onofrei (ARFI-IIT), cercetător științific.

Drd. Cristian Pădurariu (UAIC-Informatică, ARFI-IIT), asistent cercetare științifică.

Conf. dr. Marius Popescu (UB).

Drd. Petru Rebeja (UAIC-Informatică), asistent cercetare științifică.

Dr. Liviu Andrei Scutelnicu (UAIC-Informatica & ARFI-IIT), asistent cercetare științifică.

Dr. Elena (Isabelle) Tamba (ARFI-IFRI), cercetător științific I.

Lect. dr. Roxana Vieru (UAIC-Litere).

Colaboratori externi

Gabriela Dumitrescu (BAR).

Marilena Bănică (BAR).

Rezultate

Etapa I

A fost identificată o listă de titluri de documente românești redactate în alfabet chirilic acoperind secolele XVI-XIX, adică perioada în care s-a utilizat acest alfabet pe teritoriul României de azi, aflate în format de imagini de pagini în posesia unor biblioteci din țară.
A început procesul de dezvoltare a corpusului, prin depunerea temporară pe un server al IIT (ulterior transformat într-o platformă de lucru, după instalarea echipamentelor hard achiziționate în Etapa a II-a) a documentelor identificate.
A fost elaborat standardul colecției de resurse (ROCC - Romanian Old Cyrillic Corpus), structura de metadate ale documentelor, structura imaginilor de pagini și ale obiectelor adnotate.
A fost îmbunătățită interfața OOCIAT (Online Old Cyrillic Image Annotation Tool) de adnotare a resurselor (obiecte identificabile și conținutul lor lexical) și de completare metadate, proiectată înainte de începerea proiectului.
S-a început procesul de adnotare a resurselor (obiecte și conținut lexical).
A fost realizat site-ul proiectului și populat cu date.
S-au elaborat mai multe lucrări științifice, rapoarte de doctorat cu legătură directă cu proiectul, și un proceedings de conferință.
A fost organizat un eveniment științific: cea de-a 15-a conferință internațională din seria ConsILR.

Etapa II

S-a continuat activitatea de identificare de resurse și de documente chirilice transcrise în caractere latine.
După instalarea și configurarea serverului obținut prin finanțarea din proiect, s-a continuat procesul de dezvoltare a bazei de date de documente primare, precum și a standardului colecției - ROCC.
S-a continuat îmbunătățirea interfeței OOCIAT de editare metadate și adnotare a imaginilor.
S-a început inventarierea cuvintelor care apar în formă flexionată în transcrierile în alfabet latin în resursele deținute și s-au făcut experimente cu modele de clusterizare a formelor flexionate.
S-au făcut primele experimente de identificare a obiectelor în imagini și de recunoaștere a caracterelor chirilice.
S-a propus și implementat un model de aliniere între imagine și textul transcris.
S-a experimentat modele de prelucrări semantice care să pună în evidență diferențe diacronice și sincronice în lexicul limbii române. Modelele asumate vor trebui comparate cu considerațiile făcute de experți lingviști, elaborate acum.
Proiectul și realizările lui de până acum au fost diseminate în mai multe evenimente științifice, o parte din ele organizate de membrii proiectului.
Site-ul proiectului a fost încărcat complet cu date.

Diseminare

Publicații

Pădurariu C., Cristea, D. (2019). Solution for scanned documents segmentation and letter recognition, in Proceedings of the 14th edition of the International Conference on Linguistic Resources and Tools for Natural Language Processing – ConsILR-2019, Ed. Universității “Alexandru Ioan Cuza” din Iași, p. 127-137, ISSB: 1843-911X
D. Cristea, C. Pădurariu, P. Rebeja, M. Onofrei. From Scan to Text. Methodology, Solutions and Perspectives of Deciphering Old Cyrillic Romanian Documents into the Latin Script. In: Knowledge, Language, Models, Volume in Honour of Prof. Galia Angelova on Her 65th Birthday. Milena Slavcheva, editor. INCOMA Ltd. Shoumen, BULGARIA. ISBN 978-954-452-062-5, pp. 38-56

Rapoarte

Contact

Pentru detalii vă rugăm să contactați unul din responsabilii de proiect:

M.c. A. R. Dan Cristea
danu [punct] cristea [at] gmail.com
Conferențiar Doctor Marius Popescu
marius [punct] popescu [at] fmi.unibuc.ro