
BERT explicó: lo que necesita saber sobre el nuevo algoritmo de Google
La última actualización algorítmica de Google, BERT, ayuda a Google a comprender mejor el lenguaje natural, especialmente en la investigación conversacional.
BERT tendrá un impacto sobre el 10% de las consultas. Esto también tendrá un impacto en las clasificaciones orgánicas y los clips de características. ¡Entonces, este no es un pequeño cambio!
Pero, ¿sabía usted que BERT no es solo una actualización algorítmica, sino también un documento de investigación y un marco para el procesamiento del lenguaje natural mediante aprendizaje automático?
De hecho, durante el año anterior a su implementación, BERT causó una tormenta frenética de actividad en la investigación de producción.
El 20 de noviembre, realicé un seminario web sobre el motor de búsqueda presentado por Dawn Anderson, Director General de Bertey.
Anderson explicó qué es realmente el motor BERT de Google y cómo funciona, su impacto en la búsqueda y la capacidad de optimizar su contenido.
Aquí hay un resumen de la presentación del seminario web.
¿Qué es el BERT en la investigación?
BERT, que representa las representaciones de codificador bidireccional de transformadores, tiene muchas cosas.
Es mejor conocido como el marco de algoritmo de ingrediente / herramienta / búsqueda que Google llamó Google BERT, que tiene como objetivo ayudar a Search a comprender mejor el matiz y el contexto de las palabras en la investigación y hacerlo mejor empareje estas consultas con resultados útiles.
BERT es también un proyecto de investigación de código abierto y un artículo académico. Publicado por primera vez en octubre de 2018 como BERT: Deep Two-Way Transformers Pre-Training for Language Understanding, el documento fue escrito por Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova.
Además, BERT es un marco de tratamiento de PNL para el procesamiento del lenguaje natural que Google ha creado, y luego de código abierto, para que todo el campo de la investigación del procesamiento del lenguaje natural pueda mejorar comprensión del lenguaje natural en su conjunto.
Probablemente encontrará que la mayoría de los endosos en línea BERT NO se relacionan con la actualización BERT de Google.
Hay muchos artículos sobre el BERT dirigidos por otros investigadores que no usan lo que usted consideraría como actualización del algoritmo BERT de Google.
BERT ha acelerado más que nunca la comprensión del lenguaje natural y el paso de Google a la tecnología BERT de código abierto probablemente ha cambiado el procesamiento del lenguaje natural para siempre.
Las comunidades de aprendizaje automático de ML y NLP están muy entusiasmadas con BERT porque necesitan mucho trabajo para poder realizar una investigación del lenguaje natural. Fue entrenado previamente en muchas palabras, y en toda la Wikipedia en inglés, 2,500 millones de palabras.
Vanilla BERT proporciona una capa de punto de partida preformada para redes neuronales en aprendizaje automático y para diversas tareas de lenguaje natural.
Aunque BERT ha recibido capacitación previa en Wikipedia, es adecuado para conjuntos de datos de preguntas y respuestas.
Uno de esos conjuntos de datos de preguntas y respuestas en el que se puede modificar se llama MS MARCO: una base de datos generada por humanos que comprende la comprensión y los datos de síntesis creados y el código fuente abierto por Microsoft.
Hay preguntas y respuestas reales de Bing (consultas anónimas de usuarios reales de Bing) integradas en un conjunto de datos con preguntas y respuestas que los investigadores de ML y NLP pueden refinar y competir para crear el mejor modelo.
Los investigadores también están compitiendo para comprender el lenguaje natural con SQuAD (el conjunto de datos de preguntas y respuestas de Stanford). BERT ahora es incluso el punto de referencia para el razonamiento humano en SQuAD.
Muchas de las principales compañías de IA también están desarrollando versiones BERT:
- Microsoft se está expandiendo en BERT con MT-DNN (red neuronal multitarea profunda).
- RoBERTa de Facebook.
- SuperGLUE Benchmark fue creado porque el GLUE Benchmark original se ha vuelto demasiado fácil.
¿Qué desafíos ayuda BERT a resolver?
Entendemos fácilmente algunas cosas que las máquinas no entienden en absoluto, incluidos los motores de búsqueda.
El problema con las palabras.
El problema con las palabras es que están en todas partes. Más y más contenido está disponible
Las palabras son problemáticas porque muchas de ellas son ambiguas, polisémicas y sinónimos.
Bert está diseñado para ayudarte a resolver frases ambiguas compuestas de muchas palabras con múltiples significados.
Ambigüedad y polisemia.
Casi todas las palabras en inglés tienen varios significados. En el lenguaje hablado, es aún peor debido a los homófonos y la prosodia.
Por ejemplo, "cuatro velas" y "manijas de tenedor" para las personas con acento inglés. Otro ejemplo: los chistes humorísticos se basan principalmente en juegos de palabras porque es muy fácil interpretar mal las palabras.
No es muy difícil para nosotros los humanos, porque tenemos el significado y el contexto comunes para que podamos entender todas las otras palabras que rodean el contexto de la situación o la conversación, pero los motores de búsqueda y Las máquinas no lo hacen.
Esto no es un buen augurio para la investigación conversacional en el futuro.
Fondo de la palabra
"El significado de una palabra es su uso en un idioma". – Ludwig Wittgenstein, filósofo, 1953.
Básicamente, significa que una palabra tiene sentido solo si se usa en un contexto particular.
El significado de una palabra cambia literalmente a medida que se desarrolla una oración debido a las múltiples partes del discurso que una palabra podría estar en un contexto dado.
Como ejemplo, podemos ver en la breve frase "Me gusta la forma en que se parece a la otra". Solo la parte del discurso de Stanford indica que la palabra "me gusta" se considera dos partes distintas del discurso. (POS).
La palabra "me gusta" se puede usar como diferentes partes del discurso, incluidos el verbo, el sustantivo y el adjetivo.
Entonces, literalmente, la palabra "me gusta" no tiene sentido porque puede significar todo lo que la rodea. El contexto de "me gusta" cambia según el significado de las palabras que lo rodean.
Cuanto más larga es la oración, más difícil es hacer un seguimiento de todas las diferentes partes del discurso en la oración.
En NLR y NLU
El reconocimiento del lenguaje natural no incluye
La comprensión del lenguaje natural requiere una comprensión del contexto y el razonamiento basado en el sentido común. Es MUY difícil para las máquinas, pero en gran medida simple para los humanos.
Comprender el lenguaje natural no es un dato estructurado
Los datos estructurados permiten eliminar la ambigüedad, pero ¿qué pasa con la confusión entre los dos?
Todos o todos no están asignados al gráfico de conocimiento
Todavía habrá muchos vacíos para llenar. Aquí un ejemplo.
Como puede ver aquí, tenemos todas estas entidades y las relaciones entre ellas. Es aquí donde interviene la NLU, responsable de ayudar a los motores de búsqueda a llenar los vacíos entre las entidades nombradas.
¿Cómo pueden los motores de búsqueda cerrar las brechas entre las entidades nombradas?
Desambiguación del lenguaje natural.
"Sabrás una palabra de la compañía que tiene" – John Rupert Firth, lingüista, 1957
Las palabras que viven juntas están fuertemente relacionadas:
- Co-ocurrencia.
- La concurrencia proporciona contexto.
- La coincidencia cambia el significado de una palabra.
- Las palabras que comparten vecinos similares también están estrechamente relacionadas.
- Similitud y parentesco.
Los modelos de lenguaje se forman en un cuerpo muy grande de textos o colecciones de palabras para aprender las similitudes de distribución …


… y construir modelos de espacio vectorial para la integración de palabras.
Los modelos de PNL aprenden el peso de la similitud y las distancias de conectividad. Pero incluso si entendemos la entidad (la cosa) en sí, debemos entender el contexto de la palabra
En sí mismas, las palabras simples no tienen un significado semántico, por lo que necesitan cohesión. La cohesión es el enlace gramatical y léxico en un texto u oración que mantiene un texto unido y le da significado.
El contexto semántico es importante. Sin las palabras que lo rodean, la palabra "cubo" podría significar cualquier cosa en una oración.
- Pateó el cubo.
- Todavía no he eliminado esto de mi lista de cosas que hacer.
- El balde estaba lleno de agua.
Una parte importante de esto es el marcado de parte del discurso (POS):
Cómo funciona BERT
Los modelos de lenguaje más antiguos (como Word2Vec y Glove2Vec) han incorporado incrustaciones de palabras sin contexto. BERT, por otro lado, proporciona un "contexto".
Para comprender mejor cómo funciona BERT, vea qué significa el acrónimo.
B: bidireccional
Anteriormente, todas las plantillas de idioma (es decir, Saltar y palabras continuas) eran unidireccionales y solo podían mover la ventana de contexto en una dirección: una ventana móvil de "n" palabras (izquierda o derecha) de la palabra objetivo) entender el contexto de la palabra.


La mayoría de los modeladores de idiomas son unidireccionales. Pueden navegar por la ventana de contexto de la palabra de izquierda a derecha o de derecha a izquierda. Solo en un sentido, pero no en ambos al mismo tiempo.
BERT es diferente. BERT utiliza modelado de lenguaje bidireccional (que es el PRIMERO).


BERT puede ver la oración COMPLETA a cada lado del lenguaje contextual que modela una palabra y todas las palabras casi a la vez.
ER: representaciones de codificador
Lo que está codificado se decodifica. Es un mecanismo de ida y vuelta.
T: transformadores
BERT utiliza "transformadores" y "modelado de lenguaje enmascarado".
Uno de los grandes problemas para entender el lenguaje natural en el pasado ha sido no poder entender
Qué contexto se refiere a una palabra.
Pronombres, por ejemplo. Es muy fácil no saber quién es la otra persona en una conversación. Incluso los humanos pueden tener problemas para saber a quién se hace referencia en una conversación todo el tiempo.
Es un poco lo mismo para los motores de búsqueda, pero les resulta difícil hacer un seguimiento de lo que dices, él, ella, nosotros, eso, etc.
Por lo tanto, la atención de los transformadores se centra realmente en los pronombres y el significado de todas las palabras que se unen para tratar de conectar a aquellos con quienes se habla o se habla en un contexto dado.
El modelado de lenguaje enmascarado evita que la palabra objetivo se vea a sí misma. La máscara es necesaria porque evita que la palabra objetivo se vea a sí misma.
Cuando la máscara está en su lugar, BERT adivina cuál es la palabra que falta. Esto también es parte del proceso de ajuste.
¿Qué tipo de tareas de lenguaje natural ayuda BERT?
BERT ayudará con cosas como:
- Determinación de la entidad nombrada.
- Predicción de implicación textual de la siguiente oración.
- Resolución de correferencia.
- Respondiendo a la pregunta.
- Desambiguación del significado de las palabras.
- Resumen automático
- Resolución de polisemia.
BERT avanzó los puntos de referencia SOTA en 11 tareas de PNL.
Cómo BERT impactará la investigación
BERT ayudará a Google a comprender mejor el lenguaje humano
La comprensión de BERT de los matices del lenguaje humano marcará una gran diferencia en cuanto a cómo Google interpreta las consultas, ya que los usuarios obviamente buscan con consultas más largas y silenciosas.
BERT ayudará en la escala de la investigación conversacional
BERT también tendrá un impacto considerable en la investigación de voz (como una alternativa a los problemas de Pigmalión).
Espere un gran progreso para el SEO internacional
BERT tiene esta capacidad monolingüística para multilingüística porque muchos modelos en un idioma se traducen a otros idiomas.
Es posible transferir gran parte del conocimiento adquirido en diferentes idiomas, incluso si no necesariamente incluye el lenguaje en sí.
Google comprenderá mejor el "matiz contextual" y las consultas ambiguas
Muchas personas se quejaron de que su clasificación se había visto afectada.
Pero creo que probablemente sea más porque Google de alguna manera ha entendido mejor el contexto matizado de las consultas y el contexto matizado del contenido.
Entonces, quizás Google estará en mejores condiciones para comprender consultas ambiguas y matices contextuales.
¿Optimiza (o puede) su contenido para BERT?
Probablemente no.
Google BERT es un marco para una mejor comprensión. No juzga el contenido per se. Él solo entiende lo que está pasando.
Por ejemplo, Google Bert podría entender un poco más y algunas páginas demasiado optimizadas podrían verse afectadas por algo distinto de Panda, porque el BERT de Google de repente entendió que una página en particular no era tan relevante.
Esto no significa que optimice para BERT, probablemente sería mejor escribir de forma natural en primer lugar.
(Resumen del video) BERT explicó: lo que necesita saber sobre el nuevo algoritmo de Google
Vea el resumen en video de la presentación del seminario web.
O consulte el SlideShare a continuación.
Créditos de imagen
Todas las capturas de pantalla realizadas por el autor, noviembre de 2019
¡Únase a nosotros para nuestro próximo seminario web!
Únase a nosotros para nuestro próximo seminario web en vivo el miércoles 4 de diciembre a las 2 p.m. Y descubra cómo las principales agencias digitales están aprovechando los informes para demostrar su valor y encontrar oportunidades de ventas adicionales.