Recolección de datos, procesamiento y transformación

Hay una serie de pasos comunes en los problemas de minería de texto:

Recolección de datos. Las fuentes son diversas: páginas web, tweets, reseñas, libros…
Preprocesamiento. Los datos han de pasar una etapa de procesamiento en la que son limpiados y estructurados para poder ser utilizados en la siguientes fases.
Transformación. Los algoritmos trabajan con números. Por ello, el texto primero tiene que ser convertido a una representación numérica.
Procesamiento. Aplicación de algoritmos estadísticos/IA.

1. Recolección de datos

Hay tres grupos de técnicas para convertir datos web en conocimiento:

Motores de búsqueda web: exploran la estructura libre de semántica de la web y buscan documentos que se ajusten a los criterios de búsqueda.

Se usan técnicas de recuperación de información y procesado de lenguaje natural para analizar el contexto de los términos y la información léxica. Tras reunir un conjunto de documentos clasificados por su grado de matching, se ordenan adicionalmente por su importancia (popularidad, autoría), basados en la estructura de los enlaces.
Directorios: Estructuras jerárquicas que reflejan su significado, como el Open Directory Project (cancelado) o Google Directory (también cancelado). Los directorios se crean manualmente con ayuda de miles de creadores y editores.
Web semántica: Iniciativa liderada por w3c.org, que trata de traer representaciones formales de conocimiento a la web. Se añade a cada página información no visible para el lector humano que pueda procesarse automáticamente, de forma que además de poder conseguirse listas de documentos asociadas a una palabra clave puedan contestarse preguntas y proporcionar explicaciones.

Untitled