Estoy convencido de que las grandes ideas se tienen casi siempre durante el aseo personal o durante la excreción, hasta el punto de que me planteo seriamente que estaría haciendo Newton bajo el árbol cuando la manzana le dio en la cabeza.
El caso es que, siguiendo la tónica habitual, mientras me duchaba y escuchaba música (Fito & Fitipaldis, por la boca muere el pez) me he planteado la necesidad real de clasificar la información. Ha sido la música la que me ha hecho pensar en ello, ya que normalmente los ficheros MP3 tienden a estar mal clasificados. En concreto no se añade semántica a la información: los datos ID3 suelen estar mal, el autor en el campo del título, el nombre del álbum vacío, etc. Tanto que al final es más práctico realizar una búsqueda en los textos completos sin considerar la información se supuestamente contienen.
Lo fundamental es que en casos como el del ejemplo no solemos encontrarnos con problemas para encontrar la canción que buscamos, así que en definitiva el mecanismo funciona. En ocasiones añadir más mecanismos de clasificación solo complica las interfaces y los métodos de búsqueda. Los algoritmos se vuelven más complejos, pues deben ponderar entre la meta-información que disponen y la posibilidad de que dicha meta-información sea incorrecta, y deben compaginar esto con el nivel de coincidencia de los términos de búsqueda con independencia de dicha meta-información.
Además la clasificación tiende a enmascarar la información. Un ejemplo de esto puede ser aclaratorio: ésta entrada en éste blog se puede etiquetar, como un modo de clasificación, y meterla en los conjuntos de "clasificación de información", "información", "etiquetado" e incluso "web semántica". Sin embargo nadie añadiría para esta entrada etiquetas del tipo "Isaac Newton" o "música", a pesar de que contiene información sobre ambos temas.
Entonces supongamos que para responder a una búsqueda sobre un conjunto de datos tenemos en cuenta el contexto en que se realiza la búsqueda. Se trata de un usuario que está buscando el autor de la canción "por la boca muere el pez". Como esta búsqueda está en el contexto de música, acotamos los resultados a la información etiquetada como "música", "canción", etc. Por tanto este documento sería ignorado a pesar de contener exactamente la información que él busca.
Por supuesto que los ejemplos son triviales, pero la idea tiene su relevancia. De echo en la actualidad la mayor fuente de información es probablemente Internet, y en ella la clasificación es prácticamente nula (la web semántica no ha terminado de funcionar y yo apostaría a que nunca lo hará, se le ha pasado el arroz y podemos decir que ha muerto de éxito). Sin embargo eso no suele ser un problema importante. La mayoría de la información se encuentra con cierta facilidad usando buscadores que se basan única y exclusivamente en la aparición de una cadena en un texto, de la frecuencia de aparición, etc. El único modo de clasificación que aparece aquí son los "votos" que emiten otros documentos hacia uno y que por un lado destacan su relevancia y por otro colaboran con el etiquetado (un documento puede ser mostrado ante una cadena de búsqueda a pesar de que dicha cadena no aparezca en él, sino en enlaces que apuntan a él).
En definitiva ¿es tan importante la clasificación de información, o es más importante la búsqueda bruta sobre datos no clasificados?.
El caso es que, siguiendo la tónica habitual, mientras me duchaba y escuchaba música (Fito & Fitipaldis, por la boca muere el pez) me he planteado la necesidad real de clasificar la información. Ha sido la música la que me ha hecho pensar en ello, ya que normalmente los ficheros MP3 tienden a estar mal clasificados. En concreto no se añade semántica a la información: los datos ID3 suelen estar mal, el autor en el campo del título, el nombre del álbum vacío, etc. Tanto que al final es más práctico realizar una búsqueda en los textos completos sin considerar la información se supuestamente contienen.
Lo fundamental es que en casos como el del ejemplo no solemos encontrarnos con problemas para encontrar la canción que buscamos, así que en definitiva el mecanismo funciona. En ocasiones añadir más mecanismos de clasificación solo complica las interfaces y los métodos de búsqueda. Los algoritmos se vuelven más complejos, pues deben ponderar entre la meta-información que disponen y la posibilidad de que dicha meta-información sea incorrecta, y deben compaginar esto con el nivel de coincidencia de los términos de búsqueda con independencia de dicha meta-información.
Además la clasificación tiende a enmascarar la información. Un ejemplo de esto puede ser aclaratorio: ésta entrada en éste blog se puede etiquetar, como un modo de clasificación, y meterla en los conjuntos de "clasificación de información", "información", "etiquetado" e incluso "web semántica". Sin embargo nadie añadiría para esta entrada etiquetas del tipo "Isaac Newton" o "música", a pesar de que contiene información sobre ambos temas.
Entonces supongamos que para responder a una búsqueda sobre un conjunto de datos tenemos en cuenta el contexto en que se realiza la búsqueda. Se trata de un usuario que está buscando el autor de la canción "por la boca muere el pez". Como esta búsqueda está en el contexto de música, acotamos los resultados a la información etiquetada como "música", "canción", etc. Por tanto este documento sería ignorado a pesar de contener exactamente la información que él busca.
Por supuesto que los ejemplos son triviales, pero la idea tiene su relevancia. De echo en la actualidad la mayor fuente de información es probablemente Internet, y en ella la clasificación es prácticamente nula (la web semántica no ha terminado de funcionar y yo apostaría a que nunca lo hará, se le ha pasado el arroz y podemos decir que ha muerto de éxito). Sin embargo eso no suele ser un problema importante. La mayoría de la información se encuentra con cierta facilidad usando buscadores que se basan única y exclusivamente en la aparición de una cadena en un texto, de la frecuencia de aparición, etc. El único modo de clasificación que aparece aquí son los "votos" que emiten otros documentos hacia uno y que por un lado destacan su relevancia y por otro colaboran con el etiquetado (un documento puede ser mostrado ante una cadena de búsqueda a pesar de que dicha cadena no aparezca en él, sino en enlaces que apuntan a él).
En definitiva ¿es tan importante la clasificación de información, o es más importante la búsqueda bruta sobre datos no clasificados?.
Vamos por partes, que hay para rato.
ResponderEliminarLa búsqueda de datos "en bruto" utilizando sólo información textual (es decir, lo que se conoce como "Recuperación de información") está muy avanzada. Podemos utilizar incluso lenguajes de consulta que permitan hacer consultas flexibles (introducir comodines, operadores booleanos, operadores de proximidad como las comillas, ...). Podemos decir que es algo que más o menos funciona bien. Casos de éxito están por ejemplo en los "buscadores de escritorio" (beagle, por ejemplo). Ahí parezco estar más o menos de acuerdo.
Para buscar por información previamente categorizada (el caso de las etiquetas de un blog), tenemos que distinguir cómo ha aparecido esa clasificación: ¿se trata de una folksonomía (como el caso que nos ocupa, o el de flickr? ¿O tal vez las etiquetas pertenecen a una jerarquía con contenido más semántico (un tesauro oficial, por ejemplo)? En cualquiera de los casos, utilizar la metainformación sólo para buscar suele ser insuficiente, pero sobre todo más en el primero. ¿Por qué? Porque no se tiene una información global sobre el conjunto de clases, y dicho conjunto se va generando "según necesidad" (como por ejemplo al inventarse una nueva etiqueta "churri" en flickr para designar fotos de tu novia: ¿quién sabe qué quiere decir eso?). Desde mi punto de vista, la información de categoriación útil es aquella que, o bien la proporciona una máquina, o se escoge de un vocabulario "controlado" (las etiquetas son "éstas" y ninguna más) o bien es una folksonomía muy evolucionada con una gran cantidad de usuarios por debajo. Así pues, no estoy muy de acuerdo con que sea totalmente inútil. Como todo, es inútil si se le da mal uso (si los tags del mp3 se colocan mal, apaga y vámonos).
Veamos un caso claro de éxito de clasificación con sólo etiquetas. Por ejemplo, en del.icio.us, la información está clasificada a mano con etiquetas "humanas" en categorías que decide cada uno, pero cada vez que se inserta un nuevo enlace, se "sugieren" categorías mayoritarias. En mi caso, dichas categorías suelen ser suficientes (o incluso encajan mejor que lo que yo tenía pensado)... Porque hay una gran masa de usuarios haciendo funcionar el sistema (inteligencia de enjambre y tal). Buscar un enlace en del.icio.us es, como su nombre indica, delicioso. En el futuro tal vez supere a google.
Finalmente, opino que combinar ambos medios de búsqueda es, generalmente, beneficioso. Por ejemplo, un enfoque sencillo podría ser hacer una consulta a una BD (buscar por etiquetas o por metainformación) y hacer un ranking sobre lo recuperado usando técnicas de recuperación de información. Yo creo que todo lo que sea añadir semántica a una búsqueda es beneficioso y aporta cierta "inteligencia".
Y eso es toda (mi opinión).