Estoy convencido de que las grandes ideas se tienen casi siempre durante el aseo personal o durante la excreción, hasta el punto de que me planteo seriamente que estaría haciendo Newton bajo el árbol cuando la manzana le dio en la cabeza.
El caso es que, siguiendo la tónica habitual, mientras me duchaba y escuchaba música (Fito & Fitipaldis, por la boca muere el pez) me he planteado la necesidad real de clasificar la información. Ha sido la música la que me ha hecho pensar en ello, ya que normalmente los ficheros MP3 tienden a estar mal clasificados. En concreto no se añade semántica a la información: los datos ID3 suelen estar mal, el autor en el campo del título, el nombre del álbum vacío, etc. Tanto que al final es más práctico realizar una búsqueda en los textos completos sin considerar la información se supuestamente contienen.
Lo fundamental es que en casos como el del ejemplo no solemos encontrarnos con problemas para encontrar la canción que buscamos, así que en definitiva el mecanismo funciona. En ocasiones añadir más mecanismos de clasificación solo complica las interfaces y los métodos de búsqueda. Los algoritmos se vuelven más complejos, pues deben ponderar entre la meta-información que disponen y la posibilidad de que dicha meta-información sea incorrecta, y deben compaginar esto con el nivel de coincidencia de los términos de búsqueda con independencia de dicha meta-información.
Además la clasificación tiende a enmascarar la información. Un ejemplo de esto puede ser aclaratorio: ésta entrada en éste blog se puede etiquetar, como un modo de clasificación, y meterla en los conjuntos de "clasificación de información", "información", "etiquetado" e incluso "web semántica". Sin embargo nadie añadiría para esta entrada etiquetas del tipo "Isaac Newton" o "música", a pesar de que contiene información sobre ambos temas.
Entonces supongamos que para responder a una búsqueda sobre un conjunto de datos tenemos en cuenta el contexto en que se realiza la búsqueda. Se trata de un usuario que está buscando el autor de la canción "por la boca muere el pez". Como esta búsqueda está en el contexto de música, acotamos los resultados a la información etiquetada como "música", "canción", etc. Por tanto este documento sería ignorado a pesar de contener exactamente la información que él busca.
Por supuesto que los ejemplos son triviales, pero la idea tiene su relevancia. De echo en la actualidad la mayor fuente de información es probablemente Internet, y en ella la clasificación es prácticamente nula (la web semántica no ha terminado de funcionar y yo apostaría a que nunca lo hará, se le ha pasado el arroz y podemos decir que ha muerto de éxito). Sin embargo eso no suele ser un problema importante. La mayoría de la información se encuentra con cierta facilidad usando buscadores que se basan única y exclusivamente en la aparición de una cadena en un texto, de la frecuencia de aparición, etc. El único modo de clasificación que aparece aquí son los "votos" que emiten otros documentos hacia uno y que por un lado destacan su relevancia y por otro colaboran con el etiquetado (un documento puede ser mostrado ante una cadena de búsqueda a pesar de que dicha cadena no aparezca en él, sino en enlaces que apuntan a él).
En definitiva ¿es tan importante la clasificación de información, o es más importante la búsqueda bruta sobre datos no clasificados?.
El caso es que, siguiendo la tónica habitual, mientras me duchaba y escuchaba música (Fito & Fitipaldis, por la boca muere el pez) me he planteado la necesidad real de clasificar la información. Ha sido la música la que me ha hecho pensar en ello, ya que normalmente los ficheros MP3 tienden a estar mal clasificados. En concreto no se añade semántica a la información: los datos ID3 suelen estar mal, el autor en el campo del título, el nombre del álbum vacío, etc. Tanto que al final es más práctico realizar una búsqueda en los textos completos sin considerar la información se supuestamente contienen.
Lo fundamental es que en casos como el del ejemplo no solemos encontrarnos con problemas para encontrar la canción que buscamos, así que en definitiva el mecanismo funciona. En ocasiones añadir más mecanismos de clasificación solo complica las interfaces y los métodos de búsqueda. Los algoritmos se vuelven más complejos, pues deben ponderar entre la meta-información que disponen y la posibilidad de que dicha meta-información sea incorrecta, y deben compaginar esto con el nivel de coincidencia de los términos de búsqueda con independencia de dicha meta-información.
Además la clasificación tiende a enmascarar la información. Un ejemplo de esto puede ser aclaratorio: ésta entrada en éste blog se puede etiquetar, como un modo de clasificación, y meterla en los conjuntos de "clasificación de información", "información", "etiquetado" e incluso "web semántica". Sin embargo nadie añadiría para esta entrada etiquetas del tipo "Isaac Newton" o "música", a pesar de que contiene información sobre ambos temas.
Entonces supongamos que para responder a una búsqueda sobre un conjunto de datos tenemos en cuenta el contexto en que se realiza la búsqueda. Se trata de un usuario que está buscando el autor de la canción "por la boca muere el pez". Como esta búsqueda está en el contexto de música, acotamos los resultados a la información etiquetada como "música", "canción", etc. Por tanto este documento sería ignorado a pesar de contener exactamente la información que él busca.
Por supuesto que los ejemplos son triviales, pero la idea tiene su relevancia. De echo en la actualidad la mayor fuente de información es probablemente Internet, y en ella la clasificación es prácticamente nula (la web semántica no ha terminado de funcionar y yo apostaría a que nunca lo hará, se le ha pasado el arroz y podemos decir que ha muerto de éxito). Sin embargo eso no suele ser un problema importante. La mayoría de la información se encuentra con cierta facilidad usando buscadores que se basan única y exclusivamente en la aparición de una cadena en un texto, de la frecuencia de aparición, etc. El único modo de clasificación que aparece aquí son los "votos" que emiten otros documentos hacia uno y que por un lado destacan su relevancia y por otro colaboran con el etiquetado (un documento puede ser mostrado ante una cadena de búsqueda a pesar de que dicha cadena no aparezca en él, sino en enlaces que apuntan a él).
En definitiva ¿es tan importante la clasificación de información, o es más importante la búsqueda bruta sobre datos no clasificados?.
