Revista de Divulgación Científico-Tecnológica del Gobierno del Estado de Morelos

Documento

Minería de textos: Identificando contenidos y promoviendo el desarrollo industrial.


Texto e Imágenes por: Dr. José Antonio del Río Portilla
Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.
Centro de Investigación en Energía (CIE-UNAM)


Hace algún tiempo leí en una revista morelense que se dudaba de los posibles beneficios que traen a la población los científicos que laboran en el Estado. Con estas líneas pretendo ilustrar un ejemplo por demás extraño sobre las repercusiones de la ciencia básica en nuestro entorno social.

En estos momentos una porción privilegiada de la población vivimos en la era de la información a través del uso de Internet, poseemos acceso a más información de la que puede procesar. Cuando hacemos una búsqueda de información la respuesta de los buscadores en Internet es brutal, recibimos normalmente miles cuando no millones de posibilidades y quizás deseamos solamente quedarnos con los aspectos relevantes de dicha información. Los cursos de lectura rápida pudieron ser una alternativa hace unos veinte años, cuando teníamos que leer una decena de textos para obtener información. En la actualidad se requiere obtener la información relevante de miles o millones de textos y por más rápida que sea nuestra lectura, el obtener la información relevante de estos textos tomaría más tiempo del que se dispone. En este sentido, se requiere la habilidad que tiene un minero al extraer las piedras preciosos de entre las piedras comunes, análogamente se requiere extraer las palabras relevantes de los textos. Por esta razón, se ha buscado desarrollar herramientas computacionales que permitan identificar los aspectos relevantes de los textos y con ellas obtener la información.

Con este objetivo, los lingüistas han adoptado perspectivas de análisis basadas en sus conocimientos de la estructura del idioma, por ejemplo, usando análisis léxico de los textos. Otra perspectiva, es la extracción de frases clave que, en su parte más simple, son proporcionadas por los interesados para luego ser comparadas con los textos. Estas dos formas de abordar el problema generan códigos computacionales complejos o que requieren la intervención de expertos en cada campo para extraer la información. Existen otras formas de obtener la información relevante sin poseer información previa y con algoritmos computacionales sencillos. Por ejemplo, al aplicar herramientas de la física estadística en la solución de este tipo de problemas se pueden simplificar notoriamente el trabajo humano y computacional.

Seguramente el lector se habrá sorprendido con la frase anterior. ¿Qué tiene que ver la física en este asunto? Sucede que la física estadística ha abordado desde hace más de un siglo el estudio de sistemas, que ahora llamamos sistemas complejos, donde no interesa conocer el detalle de los sistemas, sino una combinación de parámetros convenientemente escogidos nos describen los fenómenos que ocurren en estos sistemas complejos. Por ejemplo, sabemos que el aire está compuesto de átomos y que ellos se mueven todo el tiempo, es más, el agua también está compuesta de moléculas que están en constante movimiento. El cambio de fase de líquido a vapor no puede describirse a través del movimiento de las moléculas del agua, sin embargo, sí podemos describir la ebullición usando la temperatura y presión y decir explícitamente que a presión atmosférica correspondiente al nivel del mar, el agua hierve a 100 grados Celsius. La física estadística, ha mostrado ser una herramienta conceptual que permite seleccionar variables adecuadas en sistemas complejos.

Algunas aplicaciones de la minería de textos no son ya tan teóricas. Parece ser que algunas empresas utilizan ya sistemas de minería de textos, para identificar el contenido de los correos electrónicos que les envían sus clientes y redirigirlos a los departamentos apropiados. En otros casos, si el sistema es capaz de identificar el contenido de una consulta frecuente en un correo electrónico, envía una respuesta estándar a la consulta, sin necesidad de intervención humana. Además está la posibilidad de usar esta técnica en la investigación de mercados en el Internet.

Actualmente, con el apoyo de un proyecto del Fondo Mixto entre el Gobierno del Estado de Morelos y el CONACyT se utiliza la minería de textos para obtener los temas donde la ciencia desarrollada en el Estado tiene fortalezas, que pueden ser utilizados para promover el desarrollo industrial basado en conocimiento. Por ejemplo, en el año 1996 aparecieron 302 artículos publicados por científicos que laboran en Morelos. A partir de estos artículos, después de aplicar en ellos la minería de textos con un software desarrollado en el CIE-UNAM, se obtuvieron los tópicos relevantes de esas investigaciones sin necesidad de leer estos artículos. Para citar algunos ejemplos podemos mencionar: etli (frijol), CdS thin films (películas delgadas semiconductoras), Darcy's law (Ley de Darcy, transporte de fluidos en medios porosos), female commercial sex workers (sexoservidoras), centruroides, (alacrán).

En el año 2003, se publicaron 576 artículos y en ellos los tópicos relevantes fueron: mean blood lead levels (niveles medios de plomo en la sangre), asthma (asma), CdTe thin films (películas delgadas semiconductoras), global entropy generation rate (producción de entropía global). Con estas frases, observamos que el espectro de las investigaciones en Morelos es amplio y puede tocar puntos sensibles de la vida económica, social y tecnológica del Estado y del País.

La información anterior es solamente un ejemplo de lo que se puede obtener con la minería de textos sin la necesidad de leer los más de 800 trabajos publicados en esos dos años. Basta mencionar que los resultados anteriores fueron obtenidos en menos de un minuto aplicando las técnicas de la física estadística. En resumen, todo lo aprendido en física estadística y aplicado a la minería de textos indica que la ciencia básica tiene repercusiones más allá de donde pensamos.

 

El Dr. José Antonio del Río Portilla es originario de la ciudad de México y radica en Morelos desde hace 15 años. Realizó sus estudios de Licenciatura, Maestría y Doctorado en Física en la Universidad Nacional Autónoma de México. Actualmente, labora en el Centro de Investigación en Energía de la UNAM en Temixco, Morelos como Investigador Titular C, enfocando su línea de investigación a la física estadística, termodinámica y transporte en medios porosos.