Hay una serie de pasos comunes en los problemas de minería de texto:

  1. Recolección de datos. Las fuentes son diversas: páginas web, tweets, reseñas, libros…
  2. Preprocesamiento. Los datos han de pasar una etapa de procesamiento en la que son limpiados y estructurados para poder ser utilizados en la siguientes fases.
  3. Transformación. Los algoritmos trabajan con números. Por ello, el texto primero tiene que ser convertido a una representación numérica.
  4. Procesamiento. Aplicación de algoritmos estadísticos/IA.

1. Recolección de datos

Recuperación de información y búsqueda web

Hay tres grupos de técnicas para convertir datos web en conocimiento:

Rastreadores web (arañas, crawlers), web scraping

Untitled