Como lo decía un post reciente en el blog Inside Search de Google, la web no sólo contiene cadenas de texto, también incluye una gran cantidad de información sobre cosas. Aquel post fue una introducción por Google para resultados de búsqueda que podrían contener una gran cantidad de información que la gente puede estar buscando, con resúmenes textuales y links a tópicos determinados en la barra lateral de Google cuando es apropiado. Si creas un página web, realizas una investigación de keywords, e incluso buscas en la web, esto representa un nuevo reto y nuevas oportunidades.
Una historia de Fast Company en 2010 llevaba un título interesante “Bing to Lap Google in Marketing Search an App?” El artículo nos habla sobre como Microsoft encuentra maneras de entender cuándo podría ser apropiado mostrar más que sólo links a páginas web o imágenes o noticias cuando cierta búsqueda puede ser realizada. La “respuesta inmediata” mostrada en los resultados de Bing no son el tipo de resultados que Google está comenzando a mostrar junto a sus resultados de búsqueda, pero son más del tipo de resultados de una caja que Google estuvo mostrando durante unos años.
Bing, Entidades y Bases de Conocimiento
A principios de este mes, Microsoft publicó una aplicación de patente que describe algunos de los procesos detrás la identificación de búsquedas donde estos resultados pueden aparecer. La patente, “Presentando acciones y proveedores asociados con entidades” nos dice como Microsoft puede identificar estas entidades dentro de una búsqueda, y responder mostrando las preguntas que pueden hacer fácil a los usuarios realizar una tarea como comprar un boleto para un evento y mucho más.
Algunos ejemplos de la patente pendiente incluyen respuestas a un amplio margen de tópicos, incluyendo “Clima, noticias, códigos de área, conversiones, diccionario de términos, entradas de enciclopedia, finanzas, vuelos, salud, fiestas, citas, hoteles, lista de locales, matemáticas, películas, música, compras, deporte, rastreo de paquetes y similares”.
Hay dos pasos principales que Bing debe tomar para ser capaz de presentar ese tipo de respuestas. Una de ellas involucra que la búsqueda reconozca una “Entidad”. Esta puede ser realizada en parte buscando un rango en bases de datos como Wikipedia, Freebase el IMDB, y otros sitios en la Web que contienen información enciclopédica sobre personas específicas, lugares y cosas.
Esas bases de datos pueden también ser usadas para entender atributos o aspectos relacionados a una entidad. Por ejemplo, los resultados de búsqueda para [Ronal Reagan] pueden involucrar el reconocimiento de que el sujeto de la búsqueda era una persona real y usar fuentes como Wikipedia y IMDB para entender los aspectos sobre Ronald Reagan, como una fecha o lugar de nacimiento, información sobre su carrera, películas en las que actuó, su servicio militar, su carrera política incluyendo haber sido gobernador de California y presidente de Estados Unidos.
Éste segundo paso involucra entender cuál es la intención detrás de la búsqueda.
Para reconocer la intención de la consulta, la entrada de consulta por un usuario es referenciada (por ejemplo, recibida, recuperada, etc.) Un registro de consulta asociada con el usuario que introdujo esa búsqueda, una búsqueda de un grupo de usuarios, o un registro de usuarios puede ser usado para determinar la intención de búsqueda.
Por ejemplo, intereses de los usuarios pueden ser utilizados para determinar la intención de búsqueda. Una búsqueda puede ser evaluada por la intención de la búsqueda usando una máquina que aprende algoritmos como agrupación. Como puede apreciarse, en algunas realizaciones, la intención de consulta puede ser o incluir la entrada de la consulta por un usuario, sin un análisis adicional.
Una búsqueda para “¿Cuándo nació Ronald Reagan?” muestra una intención de una respuesta inmediata que puede ser encontrada en una base de datos.
Las respuestas instantáneas muestran que pueden ser también complejas. Imaginen a alguien buscando por [rojos de Cincinnati]. De nuevo tenemos una entidad que puede encontrar en un número de bases y de aspectos puede ser encontrado en una base de datos relacionada a ese término.
Una vista a través de los resultados del buscado puede también mostrar una sesión de búsqueda de usuarios que pueden indicar la intención detrás de la búsqueda. Alguien buscando sobre los rojos de Cincinnati puede relacionarse con una segunda búsqueda para boletos para rojos de Cincinnati o anotaciones rojos de Cincinnati o programa de los rojos de Cincinnati.
En adicción a la búsqueda de Bing sobre todos los documentos que puedan contener la palabra rojos de Cincinnati y mostrar esos, también entiende de las bases de datos que el término es sobre una entidad específica – el equipo de la mayor liga de béisbol de Cincinnati, y entiende que la gente que busca, frecuentemente está interesada en boletos, programas o anotaciones.
El contexto de la búsqueda puede también hacer una diferencia:
- Una búsqueda por un equipo durante la temporada de baseball puede mostrar resultados relacionados a esos tópicos.
- Una búsqueda antes o después de la temporada puede mostrar las anotaciones de la temporada pasada u otra información.
- Una búsqueda realizada por una persona durante la mañana puede mostrar el record de la noche anterior
- Una búsqueda cercana al lugar donde se jugará un juego puede mostrar información de boletos y horarios.
En All Your Knowledge Bases Belong To Google. Redacté sobre cómo Google estaba buscando también entidades de conocimiento, y sus propios registros de búsqueda para determinar cuándo deben o no mostrar información adicional en los resultados de búsqueda a los usuarios de esas entidades por esas búsquedas.
Como el blog post de Insade Search que mencioné al principio de este post, la información tiene la intención especialmente de ayudar a los usuarios que pueden no saber mucho sobre el tema, y están interesados en realizar búsquedas para descubrir tipos de búsquedas en las que pueden aprender más. El post también nos dice que busca en sus registros en un intento de anticipar algunas de las siguientes búsquedas que la gente generalmente realiza cuando sus búsquedas contienen un entidad.
El anuncio reciente de Google relativo al uso de bases de datos parece ser más informativo que el de Bing, que se enfoca más en proporcional situaciones o información de transacciones entre entidades. Entonces otra vez, Google ha estado promoviendo resultados de una sola caja por algunos años que pueden ayudar a agendar vuelos o proveer información sobre el clima, mostrar mapas de negocios locales, o resultados similares que buscan igualar la intención de los usuarios.
Conceptos y la asociación de páginas Web
Una aplicación de patente de Bing que llegó la semana pasada va más allá del uso de bases de datos para entender sólo entidades. También busca en los rangos de conceptos que pueden ser encontrados en las búsquedas.
Imagina que el buscador toma uno o más bases de datos y conceptos de mapas a las páginas de esas bases de datos. Podría hacerse manual o un proceso autómata. Por ejemplo, podría tomar los títulos de los artículos de Wikipedia y usarlos como conceptos, y asociar esas páginas con esos conceptos.
El objetivo final sería crear una antología de conceptos que podrían ser usados para identificar conceptos usados en las búsquedas para determinar qué páginas muestran búsquedas, y en algunos casos proveer respuestas instantáneas de los tipos mencionados arriba.
Por ejemplo, alguien realiza una búsqueda para el “Cumpleaños de Kennedy”. Si un buscador sólo busca cadenas de palabras en su índice de web, le puede devolver una lista de páginas que contengan la frase. En vez, imaginemos que esos intentos para entender a cuál “Kennedy” me puedo estar refiriendo en la búsqueda y decidir que John F. Kennedy, Boobby Kennedy y Ted Kennedy pueden ser las opciones más acertadas, con John F. Kennedy teniendo la probabilidad de ser la respuesta correcta basándonos en resultados refinados de registro de búsquedas similares.
O en una búsqueda para [java], hay algunas ambigüedades sobre si la búsqueda es sobre lenguaje de programación, la isla o el café. Esos 3 diferentes conceptos relacionados al término pueden ser identificados como parte de una ontología creada de una base de datos como Wikipedia, Freebase y otras. Los resultados pueden incluir información sobre cada uno de los diferentes conceptos relacionados al término, mostrando una diversidad de resultados que pueden satisfacer a diferentes usuarios.
El registro de patente es:
La desambiguación de conceptos vía los resultados del buscado (concept disambiguation via search engine search results)
Inventado por David Ahn, Michael Paul Bieniosek, Andrei Peter Makhanov, Franco Salvetti, y Giovanni Lorenzo Thione
Assigned to Microsoft
US Patent Application 20120130972
Published May 24, 2012
Filed: November 23, 2010
Resumen:
La desambiguación de conceptos es proporcionada por los resultados de búsqueda mediante el análisis de los resultados en conjunto con conceptos ontologicos. Una ontología de conceptos es identificada, y, por lo menos, uno de los conceptos está asociado con cada concepto. El documento asociado con un concepto es representativo del concepto y usado para generar una firma de concepto. Cuando una búsqueda es recibida, es procesada para obtener un resultado de búsqueda.
Los resultados de búsqueda son usados para generar una firma de resultados, que esta comparada con el concepto de firmas para identificar uno o más conceptos que son relevantes a un resultado de búsqueda.
Mientras que ésta patente registrada nos dice que las fuentes como las páginas de bases de conocimiento pueden ser usadas para asociar una página con una entidad específica, parece que dejan una puerta abierta a tener otras páginas para identificar conceptos específicos también. Una página base de conocimiento puede ayudar a crear una ontología de conceptos, y en la identificación de diferentes aspectos o atributos asociados con esos conceptos.
Lo que lanza la pregunta ¿Qué tengo que hacer para que mi página sea identificada a un concepto específico, y tener páginas asociadas con ese concepto en Bing?
Es posible que la página principal de un Estado puede ser vista como apropiada para ser relacionada con un concepto relacionado a ese Estado, o la página principal de un negocio ser asociada con el “concepto” de ese negocio.
La parte del proceso de una búsqueda para el director de Titanic puede identificar la búsqueda sobre la película Titanic y más específicamente a la persona que dirigió la película. Una página dentro de los resultados de búsqueda para esa búsqueda pues ser identificada como se sobre un aspecto particular de un concepto mediante el análisis del contenido textual de la página, y un “futuro vector de términos y/o frases encontradas en ese contenido textual”
En otras palabras, para que una página tenga un buen Rank para una búsqueda como Director de Titanic, esa página debe ser una que es sobre el concepto relacionado a esa búsqueda como indica los términos y frases dentro de la página misma.
No sólo importa cuántas veces aparezca el término “Directo de Titanic” en el título de la página en los encabezados, en el contenido textual o en los links que apunten a esa página.
En vez de eso es una pregunta sobre cuantas veces la página encarna ese concepto mencionando diferente atributos y aspectos de concepto en maneras significativas, y posiblemente mencionando búsquedas relacionadas sobre el concepto.
Para llevar
La búsqueda está evolucionando para entender el significado y conceptos contenidos en las páginas y los buscadores están incrementando la búsqueda de fuentes de información como bases y sus propios registros de búsquedas para entender entidades y conceptos que pueden aparecer en las búsquedas.
Mientras que Google podría estar buscando bases de datos como Wikipedia y Freebase para aprender sobre las entidades que ve, también es posible que se incorpore el tipo de ontología descrita por la tecnología CIRLA (pdf) que viene a esto en su fusión con la semántica aplicada. Tambien es probable que Bing está desarrollando su propia ontología para similares bases de fuentes de conocimientos.
Uno de los documentos más interesantes que he visto de Microsoft recientemente fue Improving Entity Resolution with Global Constraints (pdf), que nos habla sobre cómo podría observar más las bases de tipo comerciales como la base de datos de Netflix o la base de datos de iTunes para entender que entidades pueden ser referidas en una búsqueda. Esas bases comerciales tienen un interés económico de tener una sola entrada para las entidades que contienen, desde que quieren tener toda la información sobre una entidad junta, incluyendo los reviews generados por otros usuarios.
Es importante mantener en mente que, cuando estás escribiendo sobre un tema o haciendo una investigación de Keywords, las palabras que estás eligiendo para usar no son sólo cadenas de palabras y no incorporan ciertos conceptos que pueden contener diferentes aspectos.
Si quieres crear una página o sitio sobre los rojos de Cincinnati, no hace daño entender que Google y Bing pueden tener una ontología sobre el equipo que incluye muchos diferentes aspectos relacionados al término. Puede incluir historia, agenda, información del estadio, venta de boletos, jugadores, estadísticas y similares.
La búsqueda relacionada para el uso de un término como una keyword posiblemente irá más allá de sólo mirar el volumen de búsqueda relacionado a un término y al análisis de que tan competitivo puede ser comparado con otras páginas relacionadas con el tema, a una exploración de diferentes conceptos y aspectos y atributos relacionados al termino en fuentes como bases de conocimiento y páginas que tienden a rankear bien para esos términos, así como una exploración de búsquedas relacionadas que la gente puede buscar cuando buscan para ese término.
Mencionando esos conceptos relacionados y aspectos podría hacer más probable que la página se puede ver como uno que debe estar asociado a una determinada entidad o la consulta.
Como nota extra, David Ahn, quién está listado primero como un inventor en esta segunda patente, entró a Microsoft cuando la compañía adquirió el buscador semántico Powerset. De acuerdo con su perfil de LinkedIn , aparece que dejó Microsoft para unirse a Google hace un mes. Pero esto no significa que se está llevando la tecnología detrás del concepto en la aplicación de la patente de Microsoft con él, él se está llevando sus conocimientos de asignar conceptos a una página web.