Analiza şi extragere de informaţii din documente scanate

În ciuda numeroaselor documente programatice emise de autorităţile guvernamentale sau de asociaţiile profesionale de profil, încă nu există o strategie coerentă de digitizare a fondului de documente aflat în patrimoniul bibliotecilor. Subproiectul eLibrary Builder îşi propune să transpună electronic un fond documentar de aproximativ 4 milioane de pagini cu păstrarea aspectului original. De asemenea, fondului documentar digitizat i se vor adăuga posibilităţi de indexare şi căutare inteligentă. În acest fel, documentele originale valoroase nu vor mai fi deteriorate şi vor putea fi disponibile imediat unui număr nelimitat de utilizatori. Proiectul vizează umătoarele obiective prioritare

  • Crearea unui depozit digital unic partajat de cele patru Biblioteci Centrale Universitare, o veritabilă Bibliotecă Educaţională Digitală Naţională;
  • Dezvoltarea unui sistem de optimizare a calităţii documentelor, mai cu seamă pentru acele documente care conţin anumite particularităţi de ortografie;
  • Construirea unor algoritmi eficienţi de recunoaştere a caracteristicilor paginii;
  • Conceperea unor norme de bune practici în domeniul digitizării care vor reuni protocoalele tehnice privind formatul şi criteriile de selectare a documentelor.

Noutatea proiectului constă atât în cele patru puncte enumerate mai sus, cât şi în tehnologia utilizată pentru scanare:  se va folosi un sistem complet automatizat, cu capacitate de scanare de peste 2.000 pagini/oră, care va fi achiziţionat de liderul consorţiului şi care va respecta cerinţele de prelucrare atât a documentelor vechi, cât şi a celor mai noi, în diferite formate şi cu cele mai moderne aplicatii IT pentru a face recognoscibile texte ce pot genera dificultăți la căutare.

Tipurile de documente pentru popularea iniţială a depozitului digital vor fi selectate din următoarele categorii: manuscrise, documente de arhivă, texte din documente multimedia, publicaţii seriale şi cărţi, din următoarele domenii: 1. Generalităţi: Documentare. Bibliologie. Biblioteconomie. Standardizare. Civilizaţie si cultură. Lucrări de referinţă: enciclopedii; dicţionare; biografii; bibliografii; biobibliografii; cercetări bibliografice; 2. Administraţie publică; asistenţă socială; ştiinţe militare; 3. Teologie; 4. Arte; 5. Ştiinţe juridice; 6. Ştiinţe economice; 7. Istorie ; arheologie; arhivistică; 8. Filosofie; psihologie; 9. Politică; 10. Literatură; 11. Lingvistică; filologie; dicţionare bilingve şi multilingve; 12. Sociologie; demografie; statistică; 13. Etnografie; folclor; 14. Pedagogie; 15. Ştiinţe naturale- geologie, geografie, biologie; 16. Ştiinţe exacte -matematică, fizică, chimie; 17. Ştiinţe aplicate- tehnică, inginerie; agronomie; medicină; farmacologie.