Patente de Google recién concedida arroja luz sobre cómo el motor de búsqueda ve a las entidades

862f750bcda8c10e0a6e321104098211

Cualquiera que me conozca sabe que soy un gran fan de la lectura de patentes de Google – o, cuando me siento perezoso, leyendo el análisis de Bill Slawski de ellos más en su blog, SEO By The Sea.

También tengo un interés particular en aquellos que involucran entidades, ya que son (para mí por lo menos) los que están definiendo los problemas que la agencia de marketing de Google está tratando de resolver. A medida que el aprendizaje de la máquina evoluciona, las entidades representan cómo los motores de búsqueda cada vez más están viendo el mundo y en http://marketing-digital.com.ar/.

Antes de cavar en esta última patente de Google, que se concedió el 22 de diciembre de 2016, vamos a definir primero una entidad para asegurarse de que todos estamos en la misma página. Según la patente, la definición es la siguiente:

[A] n entidad es una cosa o concepto que es singular, único, bien definido y distinguible. Por ejemplo, una entidad puede ser una persona, un lugar, un artículo, una idea, un concepto abstracto, un elemento concreto, otra cosa adecuada o cualquier combinación de las mismas.
Para mantener las cosas simples, puede casualmente pensar en una entidad como sustantivo.

Otra definición que será importante entender es la información no estructurada, que se define bastante bien en Wikipedia como tal:

Datos no estructurados … se refiere a información que no tiene un modelo de datos predefinido o que no está organizada de manera predefinida.
Con eso bajo nuestro cinturón, vamos a sumergirnos en la patente. La forma en que se estructurará este artículo, incluirá la verborragía exacta de las secciones importantes de la patente en cursiva, seguida de una explicación de lo que significa cada sección.

Abstracto
Métodos, sistemas y medios legibles por computadora se proporcionan para la reconciliación colectiva. En algunas implementaciones, se recibe una consulta, en la que la consulta está asociada al menos en parte con un tipo de entidad. Uno o más resultados de búsqueda se generan basados al menos en parte en la consulta. Los datos generados anteriormente se recuperan asociados con al menos un resultado de búsqueda del uno o más de los resultados de búsqueda, comprendiendo los datos una o más referencias de entidad en al menos un resultado de búsqueda correspondiente al tipo de entidad. Se clasifican una o más referencias de entidad y se selecciona un resultado de entidad a partir de una o más referencias de entidades basadas al menos en parte en la clasificación. Se proporciona una respuesta a la consulta basada al menos en parte en el resultado de la entidad.google-data-trends-analytics-ss-1920
Este es uno de los resúmenes que hace poco para describir el alcance completo de lo que está contenido en la patente. En lo que respecta al resumen, todo lo que estamos a punto de leer es que las entidades se clasifican, y ese ranking determina la respuesta a una consulta.

Esto fue suficiente para atraerme a la patente, y es precisamente cierto, pero como verás pronto, hay mucho más descrito dentro de un simple “clasificamos sustantivos”.

Resumen
Los siguientes fragmentos están contenidos en la sección de resumen de la patente.

Sección 2

El sistema [A] proporciona respuestas a las consultas de búsqueda en lenguaje natural basándose en referencias de entidad identificadas basadas en los datos no estructurados asociados a los resultados de búsqueda. … [El] sistema recupera información adicional preprocesada asociada a cada página web respectiva de al menos algunos de los resultados de búsqueda … la información adicional incluye, por ejemplo, nombres de personas que aparecen en las páginas web. En un ejemplo, para responder a una pregunta de “quién”, el sistema compila nombres que aparecen en los diez primeros resultados de búsqueda, tal como se identifica en la información adicional. El sistema identifica el nombre que aparece más comúnmente como la respuesta …
En el extracto anterior, comenzamos a ver el método detrás del sistema. Lo que Google está discutiendo aquí es la idea de que para determinar la respuesta a una pregunta de “quién”, usarían el nombre más común que aparece entre los 10 primeros resultados de búsqueda.

Sección 4

[T] la consulta es una consulta de lenguaje natural … la clasificación de una o más referencias de entidad comprende una clasificación basada en al menos una señal de clasificación. En algunas implementaciones, la una o más señales de clasificación comprenden una frecuencia de aparición de cada referencia de entidad respectiva. En algunas implementaciones, la una o más señales de clasificación comprenden una puntuación de actualidad de cada referencia de entidad respectiva. En algunas implementaciones, los datos generados anteriormente corresponden a datos no estructurados.
Para ampliar la información sobre cómo se describe el enfoque en la patente, vemos la frecuencia de uso del término dentro de un documento, y presumiblemente en varios documentos. Además, vemos que la actualidad es un factor de relevancia y que este es un método aplicado a los datos no estructurados.

Sección 5

[Q] uestions pueden ser proporcionados para consultas de una manera automatizada y continuamente actualizada. En algunas implementaciones, la respuesta a preguntas puede aprovechar las técnicas de clasificación de resultados de búsqueda. En algunas implementaciones, las respuestas a preguntas pueden identificarse automáticamente basándose en el contenido no estructurado de una red como Internet.

Tag: marketing

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *