El documento de búsqueda de Google revela la brecha de búsqueda

El documento de búsqueda de Google revela la brecha de búsqueda

abril 15, 2021 0 Por admin


Un artículo de investigación reciente de Google sobre la respuesta larga a las preguntas ilustra lo difícil que es responder preguntas que requieren respuestas más largas y matizadas. Si bien los investigadores pudieron mejorar el estado del arte de este tipo de respuesta a preguntas, también admitieron que sus resultados necesitaban una mejora significativa.

Leí este artículo de investigación el mes pasado cuando fue publicado y quería compartirlo porque se enfoca en arreglar una brecha en la investigación que no se discute en absoluto.

¡Espero que lo encuentres tan fascinante como yo!

Qué motores de búsqueda funcionan bien

Esta investigación se centra en Responder preguntas de dominio abierto a largo plazo, un área en la que el procesamiento del lenguaje natural sigue experimentando mejoras.

Lo que los motores de búsqueda hacen bien se llama Respuesta a preguntas de dominio abierto Factoid o simplemente Respuesta a preguntas de dominio abierto.

Publicidad

Continuar leyendo a continuación

Responder preguntas en el dominio abierto es una tarea en la que un algoritmo responde con una respuesta a una pregunta en lenguaje natural.

De que color es el cielo? El cielo es azul.

Respuesta a preguntas largas (LFQA)

El artículo de investigación indica que la respuesta larga a las preguntas (LFQA) es importante pero es un desafío y que el progreso en el logro de este tipo de respuesta a las preguntas no es tan avanzado como la respuesta a las preguntas en el dominio abierto.

Según el trabajo de investigación:

"Responder a preguntas de formato largo en el dominio abierto (LFQA) es un desafío fundamental en el procesamiento del lenguaje natural (NLP) que implica recuperar documentos relevantes para una pregunta determinada y usarlos para generar una respuesta de longitud elaborada".

Si bien ha habido avances recientes notables en el campo de la respuesta de preguntas de dominio abierto (QA) factoide, donde una oración corta o una entidad es suficiente para responder una pregunta, se ha trabajado mucho menos en el área de la respuesta larga. a las preguntas.

No obstante, LFQA es una tarea importante, sobre todo porque proporciona un banco de pruebas para medir la factibilidad de los modelos de texto generativos. Pero, ¿son los puntos de referencia y las medidas de evaluación actuales realmente apropiados para avanzar en la LFQA? "

Publicidad

Continuar leyendo a continuación

Respuesta a las preguntas del motor de búsqueda

La respuesta a las preguntas de los motores de búsqueda generalmente consiste en un investigador que hace una pregunta y el motor de búsqueda devuelve una información relativamente corta.

Preguntas como "¿Cuál es el número de teléfono de la tienda XYZ?Es un ejemplo de una pregunta típica que los motores de búsqueda pueden responder, particularmente porque la respuesta es objetiva y no subjetiva.

Las preguntas largas son más difíciles de responder porque las preguntas requieren respuestas en forma de párrafos y no de textos breves.

Facebook también está trabajando en respuestas a preguntas largas y ha encontrado algunas soluciones interesantes como usar una subrutina de preguntas y respuestas llamada Explicar como si tuviera 5 (un conjunto de datos llamado ELI5). Facebook también admite que aún queda trabajo por hacer. (Presentación de la respuesta a preguntas largas)

Ejemplos de preguntas largas

Una vez que lea estos ejemplos de preguntas largas, quedará más claro cómo los motores de búsqueda nos capacitaron para hacer un conjunto limitado de consultas. Incluso puede parecer sorprendente lo casi infantiles que son nuestras preguntas en comparación con las largas.

El documento de investigación de Google ofrece estos ejemplos de preguntas largas:

  • ¿Qué está pasando en estas altas torres de los grandes bancos?
  • ¿Qué es el fuego, en detalle? ¿Cómo es posible que la luz y el calor provengan de algo que realmente no podemos tocar?
  • ¿Por qué Gran Bretaña y otros países del Imperio inglés siempre se inclinan ante los monarcas? ¿Cuál es el verdadero objetivo de la reina?

Facebook ofrece estos ejemplos de preguntas largas:

  • ¿Por qué algunos restaurantes son mejores que otros si sirven esencialmente la misma comida?
  • ¿Cuáles son las diferencias entre cuerpos de agua como lagos, ríos y mares?
  • ¿Por qué sentimos más desfase horario cuando viajamos hacia el este?

¿Están los investigadores capacitados para hacer preguntas breves sobre los factores?

Google (y Bing) tienen dificultades para responder este tipo de preguntas de larga duración. Esto puede afectar su capacidad para presentar contenido que proporcione respuestas complejas a preguntas complejas.

Quizás las personas no hacen estas preguntas porque han sido capacitadas para no hacerlo debido a las respuestas incorrectas. Pero si los motores de búsqueda pudieran responder este tipo de preguntas, la gente comenzaría a hacerlas.

Publicidad

Continuar leyendo a continuación

Es todo un mundo de preguntas y respuestas que faltan en nuestra experiencia de investigación.

Si acorto la oración "¿Por qué algunos restaurantes son mejores que otros si sirven esencialmente la misma comida?" a "¿Por qué algunos restaurantes son mejores que otros?“Google y Bing aún no brindan una respuesta adecuada.

El principal resultado de búsqueda de Google para esta pregunta proviene del blog (HTTP no seguro) de un indio canadiense.

Google cita esta sección del restaurante indio en el SERP:

“La gente paga por la experiencia general y no solo por la comida y es por eso que algunos restaurantes cobran mucho más que otros. Los clientes del restaurante esperan que los precios reflejen el tipo de comida, el nivel de servicio y el ambiente general del restaurante. "

¿Qué pasaría si la persona tuviera en mente el pollo frito de Popeye frente a KFC al hacer esta pregunta?

Existe un cierto grado de subjetividad que puede infiltrarse en la respuesta a este tipo de preguntas que requieren una respuesta larga y consistente.

Publicidad

Continuar leyendo a continuación

No puedo evitar pensar que hay una mejor respuesta en alguna parte. Pero Google y Bing no pueden presentar este tipo de contenido.

Google usa señales para identificar contenido de alta calidad

En una explicación de cómo funciona la búsqueda que Google lanzó en septiembre de 2020, Google admite que no usa el contenido en sí para determinar si es confiable o confiable.

Google explica que utiliza señales en una publicación de blog titulada "Cómo proporciona Google información confiable en las búsquedas".

"… Cuando se trata de información confiable y de alta calidad … Muchas veces no podemos decir solo con palabras o imágenes si algo es exagerado, incorrecto, de mala calidad o inútil.

En cambio, los motores de búsqueda comprenden en gran medida la calidad del contenido a través de lo que comúnmente se conoce como "señales". Puede pensar en ellos como pistas sobre las características de una página que corresponden a lo que los humanos podrían interpretar como de alta calidad o confiable.

Por ejemplo, la cantidad de páginas de calidad que enlazan con una página en particular indica que una página puede ser una fuente confiable de información sobre un tema. "

Publicidad

Continuar leyendo a continuación

Desafortunadamente, esta parte del algoritmo de Google no puede proporcionar una respuesta correcta a este tipo de preguntas largas.

Y este es un hecho interesante e importante de comprender, porque ayuda a comprender los límites de la tecnología de investigación actual.

¿Qué pasa con la clasificación aprobatoria?

Aprobar la clasificación implica clasificar páginas web largas que contienen respuestas breves para consultas breves normales que requieren una respuesta objetiva.

Martin Splitt usó el ejemplo de encontrar una respuesta relevante sobre los tomates en una página web dedicada principalmente a la jardinería en general.

Aprobar el ranking no puede resolver las preguntas difíciles que Google actualmente no puede responder.

Google y Bing generalmente no responden a las consultas de tipo LFQA porque esta es un área que los motores de búsqueda aún deben mejorar.

Obstáculos para progresar

El propio trabajo de investigación reconoce esta deficiencia en el título:

"Obstáculos para progresar en la respuesta a preguntas largas."

El artículo de investigación concluye afirmando que su enfoque para resolver esta tarea "logra el máximo rendimiento", pero aún quedan cuestiones por abordar y más investigaciones por realizar.

Publicidad

Continuar leyendo a continuación

Así es como concluye el artículo:

"Presentamos un sistema de generación de 'recuperación aumentada' que logra un rendimiento máximo en el conjunto de datos de respuesta a preguntas ELI5 de larga duración. Sin embargo, un análisis más detallado revela varios problemas no solo con nuestro modelo, sino también con el conjunto de datos ELI5 y las métricas de evaluación. Esperamos que la comunidad haga un esfuerzo por resolver estos problemas para que podamos escalar las colinas correctas y lograr un progreso significativo.

Preguntas y especulaciones

No es posible dar una respuesta definitiva, pero debe preguntarse si hay páginas web que carecen de tráfico porque Google y Bing no pueden presentar su contenido extenso en respuesta a preguntas largas.

Además, algunos editores sobrescriben por error sus artículos con el propósito de tener autoridad. ¿Es posible que estos editores sobrecarguen el tráfico de búsqueda de consultas que requieren respuestas más cortas porque los motores de búsqueda no pueden proporcionar respuestas matizadas disponibles en documentos más largos?

Publicidad

Continuar leyendo a continuación

No hay forma de saber con certeza estas respuestas.

Pero una cosa que este artículo de investigación muestra claramente es que la respuesta larga a las preguntas es hoy una brecha en los motores de búsqueda.

Citas

Entrada de blog de Google AI
Progresos y desafíos de la respuesta larga a preguntas de dominio abierto

Versión PDF del trabajo de investigación
Obstáculos para progresar en la respuesta a preguntas largas.

Página web de Facebook Acerca de la LFQA
Presentación de la respuesta a preguntas largas.