El texto necesita ser convertido a una representación numérica para su posterior procesado por algoritmos de Inteligencia Artificial. En esta sección repasamos las aproximaciones a este proceso desde búsqueda de palabras clave a embeddings.

De documentos a vectores

Indexado y búsqueda de palabras clave

La idea es recuperar documentos con un criterio booleano simple: la presencia o ausencia de palabras, en consultas que pueden incluir conjunciones y disyunciones. Las consultas producen un gran número de documentos, por lo que se necesita un método para ordenar los documentos de acuerdo con su relevancia para la consulta.

Bag of words

Untitled

Cada palabra del vocabulario se puntúa en función del número de sus apariciones en el texto. De esta manera, se tiene vector por cada documento:

Untitled

Si se incluyen las posiciones la representación es completa (porque puede regenerarse el documento original desde su representación).

Ejemplos de consulta Consulta 1: Documentos con las palabras computer y programming Consulta 2: Documentos con la palabra program y sin la palabra programming Consulta 3: Documentos donde las palabras computer y lab sean adyacentes (consulta de proximidad)