- Prototipul al sistemului de retroconversie, complet functional ;
- Prototipul final al sistemului de retroconversie, testat intensiv si complet functional ;
- 1 brevet de inventie ;
- 2 articole stiintifice la conferinte sau jurnale ISI.
Situatia la zi a publicatiilor
Titlu, Autori, Conf/jurnal | Status |
Sporici, D., Cușnir, E., & Boiangiu, C. A. (2020). Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing. Symmetry, 12(5), 715, https://doi.org/10.3390/sym12050715. (ISI/Q2: Impact Factor 2.645) [WOS: 000540226400033] | publicat |
Boiangiu, C. A., Dinu, O. A., Popescu, C., Constantin, N., & Petrescu, C. (2020). Voting-Based Document Image Skew Detection. Applied Sciences, 10(7), 2236, https://doi.org/10.3390/app10072236. (ISI/Q2: Impact Factor 2.474) [WOS: 000533356200035] | publicat |
Alexandru ILINU, Cristian AVATAVULUI, Giorgiana Violeta VLĂSCEANU, Costin-Anton BOIANGIU; „VOTING-BASED MOTION ESTIMATION „, The Journal of Information Systems & Operations Management, Vol.14 No.1 – 2020, ISSN: 1843-4711, pp. 82-92 (CNCSIS B+/BDI) | publicat |
Robert STANCA, Eduard-Marius COJOCEA, Cristian AVATAVULUI, Costin-Anton BOIANGIU; „ON HOW TO COMBINE SINGLE IMAGE SUPER-RESOLUTION ALGORITHMS”, The Journal of Information Systems & Operations Management, Vol.14 No.1 – 2020, ISSN: 1843-4711, pp. 140-150 (CNCSIS B+/BDI) | publicat |
Stadiul implementării
Realizări până in prezent
Indicatori științifici
Indicatorii de diseminare prevăzuți până la finalul proiectului, sunt: 2018: 1 articol ISI; 2019: 2 articole ISI; 2020: 2 articole ISI + 1 brevet depus;
Situația la zi a publicațiilor este următoarea: 7 articole ISI (4 în jurnale, 3 în conferințe) + 9 articole CNCSIS B+/BDI (jurnal B+) plus alte articole în decurs de finalizare. Din punct de vedere al publicațiilor științifice toți indicatorii au fost deja îndepliniți și depășiți.
Proceduri de scanare
În perioada de achiziție documente s-au pus bazele unui proceduri de scanare. Documentul aferent a fost îmbunătățit și adaptat conform modului în care s-au desfășurat scanările.
Prototip PDF Builder
Aplicația PDF Builder este dezvoltată în C++ în mediul de dezvoltare Microsoft Visual Studio. Pentru rulare, aceasta are nevoie de două pachete externe – Tesseract-OCR și Visual C++ 2019 Redistributable.
În forma actuală a prototipului acesta are următoarele funcționalități:
- O preprocesare ce asigură reducerea zgomotelor și o binarizare a imaginilor din intrare, pentru a permite o analiză automată cât mai corectă și completă a documentelor prezentate la intrare;
- O rulare Tesseract pentru a efectua, pe rând, segmentarea imaginii, analiza de layout, OCR-ul propriu-zis, și exportul datelor text formatate;
- O construcție a PDF-ului rezultat, cu imaginile inițiale în prim-plan, cu textul detectat și formatat în fundal și a metadatelor inserate folosind biblioteca VersyPDF;
- Dacă a fost utilizat un fișier `.xml` la colectarea metadatelor relevante, atunci acesta va fi inserat, de asemenea, în PDF-ul rezultat. În acest moment PDFBuilder are suport pentru formatele exportate de către toate instituțiile partenere
- După rularea cu succes a preprocesărilor, se generează fișierul “PDF_Builder_Version.xml” ce va conține versiunea executabilului “PDF_Builder” utilizată pentru procesul de retroconversie. Schema utilizată este cea care urmează specificația SimVer [6].
Fluxul de procesare propus pentru un document
PDF Builder v0.3.0
PDF Builder v0.3.0 generează un număr mai mare de fișiere PDF rezultate la dimensiuni și calități diferite pentru a da posibilitatea utilizatorului de a alege fișierul potrivit în funcție de capabilitățile de afișare ale PDF Reader-ului de pe dispozitiv și de performanțele conexiunii.
În versiunea v0.3.0 au adus următoarele îmbunătățiri/ modificări:
Actualizări | Procent de realizare |
Introducem rutina MRC ce presupune spargerea imaginii în 3 plane: planul de foreground, background și un plan ce conține o mască binară cu rol de selector. Această rutină poate îmbunătăți dramatic compresia / calitatea comparativ cu algoritmii tradiționali de compresie a imaginilor cu pierderi. | 100 % |
Rutina de binarizare a fost îmbunătățită considerabil și poate fi setat de utilizator dacă se dorește rularea rapidă sau precisă. | 100 % |
S-a înlocuit biblioteca HummusPDF cu VersyPDF, ce are o serie de facilități extinse, inclusiv suport pentru MRC și adăugarea în PDF a unui cuprins. | 100 % |
Integrarea unei serii de warning-uri pentru rulare ce au de-a face cu: spațiul de disc, permisiuni de rulare. | 90% |
Adăugarea de mesaje targetate în fișierul de log astfel încât să fie capturate potențiale erori rapid și rezolvate de către utilizator (spațiu, probleme de preluare căi, etc) și către dezvoltare. | 100 % |
Fișierele rezultate sunt în număr de 11 PDF-uri:
– 1 fișier PDF ce conține imaginile originale – 1 fișier PDF ce conțin imaginile binarizate – 9 fișiere PDF obținute cu tehnologia MRC cu grade de compresie diferite pentru planurile de background și foreground, inclusiv salvarea selectorului ca JBIG2. |
100 % |