Entradas aleatorias

Javascript barra de lectura

javascript

Nuestra visión del mundo online

27 de febrero de 2007

Des-clasificación de información

1 comentario

  1. Vamos por partes, que hay para rato.

    La búsqueda de datos "en bruto" utilizando sólo información textual (es decir, lo que se conoce como "Recuperación de información") está muy avanzada. Podemos utilizar incluso lenguajes de consulta que permitan hacer consultas flexibles (introducir comodines, operadores booleanos, operadores de proximidad como las comillas, ...). Podemos decir que es algo que más o menos funciona bien. Casos de éxito están por ejemplo en los "buscadores de escritorio" (beagle, por ejemplo). Ahí parezco estar más o menos de acuerdo.

    Para buscar por información previamente categorizada (el caso de las etiquetas de un blog), tenemos que distinguir cómo ha aparecido esa clasificación: ¿se trata de una folksonomía (como el caso que nos ocupa, o el de flickr? ¿O tal vez las etiquetas pertenecen a una jerarquía con contenido más semántico (un tesauro oficial, por ejemplo)? En cualquiera de los casos, utilizar la metainformación sólo para buscar suele ser insuficiente, pero sobre todo más en el primero. ¿Por qué? Porque no se tiene una información global sobre el conjunto de clases, y dicho conjunto se va generando "según necesidad" (como por ejemplo al inventarse una nueva etiqueta "churri" en flickr para designar fotos de tu novia: ¿quién sabe qué quiere decir eso?). Desde mi punto de vista, la información de categoriación útil es aquella que, o bien la proporciona una máquina, o se escoge de un vocabulario "controlado" (las etiquetas son "éstas" y ninguna más) o bien es una folksonomía muy evolucionada con una gran cantidad de usuarios por debajo. Así pues, no estoy muy de acuerdo con que sea totalmente inútil. Como todo, es inútil si se le da mal uso (si los tags del mp3 se colocan mal, apaga y vámonos).

    Veamos un caso claro de éxito de clasificación con sólo etiquetas. Por ejemplo, en del.icio.us, la información está clasificada a mano con etiquetas "humanas" en categorías que decide cada uno, pero cada vez que se inserta un nuevo enlace, se "sugieren" categorías mayoritarias. En mi caso, dichas categorías suelen ser suficientes (o incluso encajan mejor que lo que yo tenía pensado)... Porque hay una gran masa de usuarios haciendo funcionar el sistema (inteligencia de enjambre y tal). Buscar un enlace en del.icio.us es, como su nombre indica, delicioso. En el futuro tal vez supere a google.

    Finalmente, opino que combinar ambos medios de búsqueda es, generalmente, beneficioso. Por ejemplo, un enfoque sencillo podría ser hacer una consulta a una BD (buscar por etiquetas o por metainformación) y hacer un ranking sobre lo recuperado usando técnicas de recuperación de información. Yo creo que todo lo que sea añadir semántica a una búsqueda es beneficioso y aporta cierta "inteligencia".

    Y eso es toda (mi opinión).

    ResponderEliminar

También
te puede interesar