Smart Search – Lib2Life

Provocările cu care se confruntă serviciile moderne de bibliotecă sunt duble. Pe de o parte, din perspectiva utilizatorului, trebuie asigurat un acces rapid la informaţia relevantă pentru acesta. De cealaltă parte, în contextul creşterii exponenţiale a fondului documentar, bibliotecile se văd nevoite să-şi optimizeze permanent procedurile de management al documentelor. Acest subproiect asigură atât soluţii tehnice de regăsire rapidă a informaţiei, cât şi soluţii de consolidare a procedurilor de management. Gradul înalt de inovaţie este dat de utilizarea celor mai avansate tehnologii de procesare a limbajului, dar şi de noutatea tipurilor de servicii oferite, integrând într-o singură structură, inexistentă în acest moment în România, atât serviciile tehnologice de structurare a informaţiilor, cât şi serviciile publice pentru diferite comunităţi de utilizatori.

Serviciile tehnologice au ca beneficiar personalul de bibliotecă, punând la dispoziţia acestuia instrumente pentru clasificarea, catalogarea şi conservarea documentelor. Proiectul nostru se va concentra pe aplicarea acestor instrumente asupra documentelor din depozitul digital al celor patru Biblioteci Centrale Universitare, realizat în cadrul proiectului 2.

Serviciile publice se adresează utilizatorilor şi aspecte: asistă utilizatorii în căutarea de documente relevante din punct de vedere semantic (full-text search), oferind sugestii noi de lectură bazate pe nevoile de cercetare-informare.

Obiectivele proiectul Smart Search va asigura următoarele:

Sistematizarea documentelor – vor fi introduşi algoritmi de categorizare automată şi clusterizare a documentelor în grupuri similare din punct de vedere semantic; totodată, va fi implementat un model de clasificare bazat pe The Digital Library Reference Model şi pe modelul oferit de Dublin Core Metadata Initiative (DCMI) în vederea etichetării automate a resurselor în categorii predefinite;
Realizarea unui depozit semantic pentru ontologiile de domeniu create în cadrul proiectului;
Căutări de documente relevante şi explorări de legături de intertextualitate între diverse colecţii de documente având la bază modele semantice de reprezentare a cunoştinţelor (spre exemplu analiza latentă semantică, alocarea Dirichlet latentă, word2vec);
Recomandări de resurse folosind algoritmi bazaţi pe ontologii, respectiv recomandări sociale; în acest sens, se vor crea ontologii pentru cele 17 domenii, care vor fi folosite la adnotarea semantică automată a textelor. Ontologiile vor fi create fie manual (folosind Protege), fie semi-automat, folosind Text2Onto sau modele semantice antrenate nesupervizat din colecţii vaste de texte.