El texto necesita ser convertido a una representación numérica para su posterior procesado por algoritmos de Inteligencia Artificial. En esta sección repasamos las aproximaciones a este proceso desde búsqueda de palabras clave a embeddings.
La idea es recuperar documentos con un criterio booleano simple: la presencia o ausencia de palabras, en consultas que pueden incluir conjunciones y disyunciones. Las consultas producen un gran número de documentos, por lo que se necesita un método para ordenar los documentos de acuerdo con su relevancia para la consulta.
Bag of words
Cada palabra del vocabulario se puntúa en función del número de sus apariciones en el texto. De esta manera, se tiene vector por cada documento:
Si se incluyen las posiciones la representación es completa (porque puede regenerarse el documento original desde su representación).
Ejemplos de consulta Consulta 1: Documentos con las palabras computer y programming Consulta 2: Documentos con la palabra program y sin la palabra programming Consulta 3: Documentos donde las palabras computer y lab sean adyacentes (consulta de proximidad)