1. Prototipul al sistemului de retroconversie, complet functional ;
  2. Prototipul final al sistemului de retroconversie, testat intensiv si complet functional ;
  3. 1 brevet de inventie ;
  4. 2 articole stiintifice la conferinte sau jurnale ISI.
Titlu, Autori, Conf/jurnal Status
Sporici, D., Cușnir, E., & Boiangiu, C. A. (2020). Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing. Symmetry, 12(5), 715, https://doi.org/10.3390/sym12050715. (ISI/Q2: Impact Factor 2.645) [WOS: 000540226400033] publicat
Boiangiu, C. A., Dinu, O. A., Popescu, C., Constantin, N., & Petrescu, C. (2020). Voting-Based Document Image Skew Detection. Applied Sciences, 10(7), 2236, https://doi.org/10.3390/app10072236. (ISI/Q2: Impact Factor 2.474) [WOS: 000533356200035] publicat
Alexandru ILINU, Cristian AVATAVULUI, Giorgiana Violeta VLĂSCEANU, Costin-Anton BOIANGIU; „VOTING-BASED MOTION ESTIMATION „, The Journal of Information Systems & Operations Management, Vol.14 No.1 – 2020, ISSN: 1843-4711, pp. 82-92 (CNCSIS B+/BDI) publicat
Robert STANCA, Eduard-Marius COJOCEA, Cristian AVATAVULUI, Costin-Anton BOIANGIU; „ON HOW TO COMBINE SINGLE IMAGE SUPER-RESOLUTION ALGORITHMS”, The Journal of Information Systems & Operations Management, Vol.14 No.1 – 2020, ISSN: 1843-4711, pp. 140-150 (CNCSIS B+/BDI) publicat

Realizări până in prezent

Indicatori științifici 

Indicatorii de diseminare prevăzuți până la finalul proiectului, sunt: 2018: 1 articol ISI; 2019: 2 articole ISI; 2020: 2 articole ISI + 1 brevet depus;

Situația la zi a publicațiilor este următoarea: 7 articole ISI (4 în jurnale, 3 în conferințe) + 9 articole CNCSIS B+/BDI (jurnal B+) plus alte articole în decurs de finalizare. Din punct de vedere al publicațiilor științifice toți indicatorii au fost deja îndepliniți și depășiți.

Proceduri de scanare

În perioada de achiziție documente s-au pus bazele unui proceduri de scanare. Documentul aferent a fost îmbunătățit și adaptat conform modului în care s-au desfășurat scanările.

Prototip PDF Builder

Aplicația PDF Builder este dezvoltată în C++ în mediul de dezvoltare Microsoft Visual Studio. Pentru rulare, aceasta are nevoie de două pachete externe – Tesseract-OCR și Visual C++ 2019 Redistributable.

În forma actuală a prototipului acesta are următoarele funcționalități:

  • O preprocesare ce asigură reducerea zgomotelor și o binarizare a imaginilor din intrare, pentru a permite o analiză automată cât mai corectă și completă a documentelor prezentate la intrare;
  • O rulare Tesseract pentru a efectua, pe rând, segmentarea imaginii, analiza de layout, OCR-ul propriu-zis, și exportul datelor text formatate;
  • O construcție a PDF-ului rezultat, cu imaginile inițiale în prim-plan, cu textul detectat și formatat în fundal și a metadatelor inserate folosind biblioteca VersyPDF;
  • Dacă a fost utilizat un fișier `.xml` la colectarea metadatelor relevante, atunci acesta va fi inserat, de asemenea, în PDF-ul rezultat. În acest moment PDFBuilder are suport pentru formatele exportate de către toate instituțiile partenere
  • După rularea cu succes a preprocesărilor, se generează fișierul “PDF_Builder_Version.xml” ce va conține versiunea executabilului “PDF_Builder” utilizată pentru procesul de retroconversie. Schema utilizată este cea care urmează specificația SimVer [6].

Fluxul de procesare propus pentru un document

PDF Builder v0.3.0

PDF Builder v0.3.0 generează un număr mai mare de fișiere PDF rezultate la dimensiuni și calități diferite pentru a da posibilitatea utilizatorului de a alege fișierul potrivit în funcție de capabilitățile de afișare ale PDF Reader-ului de pe dispozitiv și de performanțele conexiunii.

În versiunea v0.3.0 au adus următoarele îmbunătățiri/ modificări:

Actualizări Procent de realizare
Introducem rutina MRC ce presupune spargerea imaginii în 3 plane: planul de foreground, background și un plan ce conține o mască binară cu rol de selector. Această rutină poate îmbunătăți dramatic compresia / calitatea comparativ cu algoritmii tradiționali de compresie a imaginilor cu pierderi. 100 %
Rutina de binarizare a fost îmbunătățită considerabil și poate fi setat de utilizator dacă se dorește rularea rapidă sau precisă. 100 %
S-a înlocuit biblioteca HummusPDF cu VersyPDF, ce are o serie de facilități extinse, inclusiv suport pentru MRC și adăugarea în PDF a unui cuprins. 100 %
Integrarea unei serii de warning-uri pentru rulare ce au de-a face cu: spațiul de disc, permisiuni de rulare. 90%
Adăugarea de mesaje targetate în fișierul de log astfel încât să fie capturate potențiale erori rapid și rezolvate de către utilizator (spațiu, probleme de preluare căi, etc) și către dezvoltare. 100 %
Fișierele rezultate sunt în număr de 11 PDF-uri:

–       1 fișier PDF ce conține imaginile originale

–       1 fișier PDF ce conțin imaginile binarizate

–       9 fișiere PDF obținute cu tehnologia MRC cu grade de compresie diferite pentru planurile de background și foreground, inclusiv salvarea selectorului ca JBIG2.

100 %