Curso de Periodismo Digital
blue_thin_line_2.gif (1878 bytes)

Inicio

Los buscadores

A lo largo de las ponencias del último Congreso de Internet´99, se  hablaba que en Internet ya existían alrededor de 800 millones de páginas Web, que de las 50.000 empresas con presencia en Internet, solo 15.000 tenían dominio propio y que los usuarios en la búsqueda de información sólo accedían hasta la alternativa 25. Ahora bien, ¿cómo localizo una página de información entre esos 800 millones?  La principal herramienta han los buscadores

ole_logo.gif (5908 bytes)Los buscadores no son más que herramientas (software) que ayudan a encontrar la información demandada y que son conocidos como: índices, directorios, buscadores o motores de búsqueda. El concepto más extendido entre los internautas es el de buscador o directorio, y poco se conoce sobre los motores de búsqueda a pesar que ya son muchos los fabricantes.

Sin embargo, pese a la proliferación de los motores de búsqueda, son muchas las quejas que se centran en la calidad de la búsqueda.

Al respecto, Steve Collins, miembro de la plantilla de técnicos de U.S. West, sólo quiere encontrar la cantidad apropiada de información cuando utiliza su motor de búsqueda Verity Search en su Intranet. "Te encuentras con exceso o defecto de información – comenta en la revista Datamation Set.98-. En ningún caso, con la que se necesita".

 

Según Ricardo Pérez Garrido, Profesor de Sistemas de Información del Instituto de Empresa, a finales de 1993 aparecieron los primeros "gusanos", los "crawlers" o "worms", sistemas automatizados de búsqueda de información en Internet. En 1994, de la mano de David Filo y Jerry Yang, estudiantes de la Universidad de Standford, nació Yahoo (http://www.yahoo.com), conteniendo más de 200.000 websites del alrededor del 1.000.000 que ya existían, y ordenándolos en forma de índice. Hoy es una empresa representativa en el mundo de la Red.

Parecida opinión tiene Jack Linder, director ejecutivo de Yamatech quien afirma: "los motores de búsqueda no disponen de suficiente inteligencia. Todos ellos nos devuelven todo lo que encuentran, y muchas veces devuelven resultados redundantes, apareciendo por ejemplo, el mismo documento varias veces". A la vista de esto nos preguntamos ¿cuantas veces no ha pasado que cuando utilizamos un buscador cualquiera, lanzamos la búsqueda y los resultados son documentos en números de cinco o seis cifras?. Y, a ello, se le une que debemos de pasar páginas y páginas para encontrar algo provecho. Cuando llegamos a la páguina cuarta ya nos están hablando de otro tema.

Dos tipos de buscadores

yahoo.gif (4672 bytes)

Así pues, dentro de este creciente e importante sector, podemos decir que existen dos grandes de buscadores de información en Internet. Los buscadores de tipo directorio estan estructurados en forma de arboles de información (al estilo del índice analítico de un libro), donde grandes clasificaciones genéricas se van dividiendo en otras más especificas. El ser clasificado dentro de estos grandes índices hace necesaria una solicitud activa por parte de los propietarios del sitio Web. A este esquema corresponden Yahoo y Terra (http://www.terra.es).

El otro tipo de buscador, es el Motor de búsqueda que se basa en la búsqueda de información a través de la red y su almacenamiento en grandes bases de datos documental. El sistema de búsqueda selecciona una serie de palabras a lo largo del texto, aunque son también importantes los metatags –palabras claves seleccionadas por los autores de las páginas, y utilizadas por estos motores de búsqueda para realizar sus clasificaciones. Este es el esquema de funcionamiento de Altavista (http://www.altavista.com).

Facilitar las búsquedas

Los fabricantes de motores de búsqueda se mueven rápidamente con vistas a facilitar la realización de las búsquedas. Habitualmente, los motores de búsqueda de primera generación proporcionan un porcentaje de relevancia, obtenido contando la cantidad de veces que la palabra buscada aparece en un documento y listando en primer lugar aquel documento. Ahora mismo, algunos motores de búsqueda convierten algo más manejable la lista de resultados, distribuyendo estos resultados entre categorías coherentes. Inference (http://www.inference.com), que ofrece su motor de búsqueda InferenceFind para búsquedas en Internet, proporciona este tipo de agrupamiento y, también, elimina los resultados redundantes.

Ante la gran cantidad de información que generan las búsquedas, los motores como Fulkrum Knowledge Networks (http://www.fulcrum.com), Ultraseek, de Infoseek y otros, ayudan estrechar las consultas de forma que en un segundo se encuentra la información correcta. Sin embargo el mayor valor añadido que aportan los motores a la hora de buscar consiste probablemente en hacerlo utilizando un lenguaje natural. Lo que los usuarios quieren por encima de todo, a la hora de efectuar una búsqueda es poder teclear en lenguaje normal, de uso diario y corriente. No se quiere oír hablar de los operadores booleanos.

Limitaciones en búsquedas tradicionales

La limitación fundamental de la búsqueda booleana es que su dominio se origina en bases de datos fundamentalmente numéricas estructuradas, tratando las palabras como si fueran números –como cadena de caracteres- No obstante, una búsqueda de cadena de caracteres no dice nada sobre el significado, o el contexto, de los conceptos relevantes. Por ejemplo, una búsqueda de la palabra "base" no puede distinguir entre sus significados verbales como "sistema de gestión de BD", "base naval", "con base en" o "base de datos". Tampoco un sistema limitado puede relacionar la palabra "base" como naval con términos como "fragata", "marinero", "buque", etc.

Afortunadamente, en la actualidad, existen alternativas para afinar la búsqueda de cadena de caracteres junto con la "riqueza coloquial" del lenguaje de forma efectiva. Dichas alternativas van a estar representadas por las modernas y sofisticadas tecnologías en materia de recuperación de información textual y visual (estática y en movimiento).

Nueva generación

Gran parte de los sistemas de recuperación textual post-booleanos van más allá de la simple relación entre cadena de caracteres, dicho de otra manera, se basan en el poder de las palabras para la construcción principal de bloques de significado. El objetivo es crear sistemas más fáciles de usar y que puedan mejorar el acceso a información útil desde colecciones diferentes de documentos. La mayoría de las tecnologías de recuperación textuales post-booleanas están basadas en sistemas de búsqueda conceptual y búsqueda de lenguaje natural.

La próxima generación de motores de búsqueda promete hacer la vida más fácil, tanto a los administradores como a los usuarios. Cada vez son más potentes, con lo que la indexación es cada vez más rápida, algo importante ahora que la cantidad de información de las Intranets corporativas crece a marchas forzadas.

Otro factor importante en la indexación de información para la Intranets, es el léxico. Los motores de búsqueda están empezando a encargarse de anexar un léxico o diccionario de palabras relacionadas para asignar un documento a la categoría apropiada. Este proceso podría resultar complicado sin la existencia de un léxico. Ya que un documento que debería ir a la categoría "ordenadores" podría utilizar los términos "CPU", "procesador" y "RAM", pero no contener realmente los términos "ordenador".

Relevancia en la búsqueda

La idea de relevancia es un tanto compleja. En primer lugar, y para simplificar, se pueden definir dos tipos fundamentales de relevancia. La relevancia "formal": cuando los resultados de una búsqueda de información responden a la ecuación de búsqueda que se había planteado (lógica booleana), Y la relevancia semántica: cuando los resultados obtenidos responden a las necesidades del usuario.

Los internautas van a ir descubriendo, de hecho ya lo están haciendo, por lo que obtienen en sus búsquedas en el Web no les sirven de mucho. La razón por la que no solo consiguen información muy poco relevante formalmente (sus ecuaciones de búsqueda son simplemente pobres, o el lugar en el que buscan no es el adecuado) sino que lo que consiguen es, frecuentemente, también irrelevante semánticamente, es decir, que no les sirve para resolver la necesidad de información que tenían, porque confunden la información de lo que desean obtener con lo que realmente preguntan.

Los grandes depósitos de información que constituyen Internet no sirven de nada si no se les interroga adecuadamente, pero tampoco sirven de nada si quien pregunta no sabe realmente cual es el problema que quiere resolver buscando información. Hoy en día, muchos webs corporativos están incluyendo buscadores (motores de búsqueda) dentro de sus páginas principales como valor añadido a los servicios o productos que oferta.

 

alojamiento web gratis
Otros servicios ofrecidos por HispaVista:
Inmobiliaria y Dominios
Consigue una página web gratis o un
alojamiento web profesional con Galeón