Hay una serie de pasos comunes en los problemas de minería de texto:
Hay tres grupos de técnicas para convertir datos web en conocimiento:
Motores de búsqueda web: exploran la estructura libre de semántica de la web y buscan documentos que se ajusten a los criterios de búsqueda.
Se usan técnicas de recuperación de información y procesado de lenguaje natural para analizar el contexto de los términos y la información léxica. Tras reunir un conjunto de documentos clasificados por su grado de matching, se ordenan adicionalmente por su importancia (popularidad, autoría), basados en la estructura de los enlaces.
Directorios: Estructuras jerárquicas que reflejan su significado, como el Open Directory Project (cancelado) o Google Directory (también cancelado). Los directorios se crean manualmente con ayuda de miles de creadores y editores.
Web semántica: Iniciativa liderada por w3c.org, que trata de traer representaciones formales de conocimiento a la web. Se añade a cada página información no visible para el lector humano que pueda procesarse automáticamente, de forma que además de poder conseguirse listas de documentos asociadas a una palabra clave puedan contestarse preguntas y proporcionar explicaciones.