Imágenes de Google con acciones y anotaciones de datos estructurados

Publicado: 2017-06-17

Google Lens

El año pasado, escribí sobre una nueva patente de Google que describía las nuevas funciones de búsqueda visual de fotografías de Google. Un rumor sobre las nuevas capacidades de las aplicaciones de teléfono de Android acompañó a una patente que describía una función de búsqueda de reconocimiento de contorno de objeto integrada en dichas aplicaciones. Cuando llegamos a la Conferencia de desarrolladores de I / O 2017 de Google, y Google anunció algo que llamaban Google Lens, se parecía un poco a Deja Vu. Esa función que se rumorea aún no se ha lanzado, y sin embargo, no es lo mismo. Es un poco diferente y parece que se centra en acciones de datos estructurados que son interesantes.

Estuve atento a las patentes de Google, pero me perdí una, y la gente de Patently Apple informó sobre una desde principios de mes:

La patente detrás de la función de cámara de realidad aumentada de Google llamada 'Google Lens' aparece en la Oficina de Patentes de EE. UU.

Después de leer eso, pensé que valía la pena echar un vistazo más de cerca a la patente. La patente nos dice que se enfoca en tomar acciones basadas en el contenido que se encuentra en las imágenes.

La patente es:

Interfaz de usuario de cámara inteligente
Inventores: Teresa Ko, Adam Hartwig, Mikkel Crone Koser, Alexei Masterov, Andrews-Junior Kimbembe, Matthew J. Bridges, Paul Chang, David Petrou y Adam Berenzweig
Solicitud de patente estadounidense: 20170155850
Concedido: 1 de junio de 2017
Archivado: 9 de febrero de 2017

Abstracto

Las implementaciones de la presente divulgación incluyen acciones de recibir datos de imagen de una imagen que captura una escena, recibir datos que describen una o más entidades determinadas a partir de la escena, determinando una o más entidades a partir de la escena, determinando una o más acciones basadas en la o más entidades, proporcionándose cada acción al menos en parte basándose en los resultados de búsqueda de la búsqueda de una o más entidades, y proporcionando instrucciones para mostrar una interfaz de acción que comprende uno o más elementos de acción, siendo cada elemento de acción para inducir la ejecución de una acción respectiva, la interfaz de acción se muestra en un visor.

Acciones asociadas con imágenes

Las acciones de ejemplo que las personas pueden realizar, basadas en la búsqueda de contenido en imágenes, pueden incluir:

(1) Compartir contenido como imágenes y videos,
(2) Comprar uno o más artículos,
(3) Descarga de contenido como música, videos o imágenes,
(4) Una acción de agregar un evento, como agregar un evento a un calendario, y
(5) Una acción de agregar al álbum que se puede ejecutar para agregar contenido, por ejemplo, imágenes, a un álbum, por ejemplo, un álbum de fotos.

La patente utiliza datos en imágenes, a diferencia de los códigos legibles por máquina, como los códigos de barras. Puede reconocer entidades que se encuentran en imágenes utilizando un programa de reconocimiento de entidades. Una entidad puede ser una cosa en lugar de solo una persona o un lugar, como una hamburguesa o una comida. Las acciones que pueden estar asociadas con entidades específicas pueden definirse mediante anotaciones asociadas con ellas. La patente nos dice:

En algunos ejemplos, una o más anotaciones están asociadas con cada entidad de una o más entidades. En algunos ejemplos, el conjunto de entidades se puede proporcionar a un motor de anotaciones, que procesa el conjunto de entidades para proporcionar un conjunto de anotaciones. En algunos ejemplos, el motor de anotaciones se proporciona como uno o más programas ejecutables por ordenador que pueden ser ejecutados por uno o más dispositivos informáticos, por ejemplo, el dispositivo y / o el sistema de servidor. En algunas implementaciones, el motor de reconocimiento de entidades y el motor de anotaciones se combinan, por ejemplo, son el mismo motor.

Un tipo de anotación que podría asociarse con una entidad que podría reconocerse en una imagen sería una acción relacionada con la búsqueda:

Por ejemplo, una entidad puede incluir el texto "Mejor banda de todos los tiempos", que se muestra en los datos de la imagen y que es el nombre de una banda de músicos. En algunos ejemplos, el texto "Mejor banda de todos los tiempos" se puede proporcionar como una consulta de búsqueda al motor de búsqueda, y se pueden proporcionar resultados de búsqueda, que están asociados con la banda en particular. Los resultados de búsqueda de ejemplo pueden incluir fechas de giras, álbumes y / o productos asociados con la banda, cuyos resultados de búsqueda se pueden proporcionar como anotaciones.

Imágenes y acciones de datos estructurados

La patente señala la posibilidad de que una anotación “se pueda proporcionar sobre la base de entidades de referencia cruzada con un gráfico de datos estructurados. por ejemplo, gráfico de conocimiento ".

La patente proporciona tres ejemplos de cómo se pueden proporcionar acciones cuando se asignan a entidades o anotaciones:

(1) Por ejemplo, una entidad y / o anotación que está asociada con un evento, por ejemplo, un concierto, se puede asignar a una acción de agregar evento que se puede ejecutar para agregar un evento a un calendario y / o a una compra. acción, por ejemplo, comprar entradas para el evento, comprar álbumes. En consecuencia, la acción de agregar evento y / o la acción de compra se pueden incluir en uno o más eventos.

(2) Como otro ejemplo, una entidad y / o anotación puede corresponder a un álbum de imágenes del usuario, por ejemplo, un álbum de comida, y se puede asignar a una acción de agregar al álbum que se puede ejecutar para agregar contenido, por ejemplo, una imagen. , a un álbum. Por consiguiente, la acción se proporciona basándose en información específica del usuario, por ejemplo, el conocimiento de que el usuario tiene un álbum de imágenes relevante para la entidad representada en la imagen.

(3) Como otro ejemplo, una entidad y / o anotación puede corresponder a uno o más contactos del usuario, por ejemplo, dentro de un servicio de red social, y puede asignarse a una acción de compartir imagen que se puede ejecutar para compartir la imagen con los contactos. Por consiguiente, la acción se proporciona basándose en información específica del usuario, por ejemplo, el conocimiento de que el usuario comparte típicamente el contenido representado en la imagen con los contactos particulares.

La patente también señala algunos otros ejemplos.

Un Libro capturado en datos de imagen puede devolver información de datos estructurados asociados con ese libro, como: imagen de la portada, título, resumen, autor, fecha de publicación, género.

Una banda representada en datos de imagen puede devolver información de datos estructurados asociados con la banda, como: imagen de la banda, una lista de miembros de la banda, una lista de álbumes.

Take Aways

La presentación de Google I / O mostró información sobre la devolución de un negocio en respuesta a una foto que se tomó de ese negocio en particular. Parece que está devolviendo datos de una anotación basada en la información del gráfico de conocimiento sobre la empresa. Google no promete que si su empresa se verifica en Google MyBusiness, obtendrá automáticamente un gráfico de conocimiento de su empresa en los resultados de búsqueda. Pero parece ayudar en muchos casos. Me imagino que es probable que Google publique más sobre cómo configurar datos estructurados para tener anotaciones específicas asociadas con diferentes entidades. Parece ser una señal de que Google encontrará formas de utilizar datos estructurados de las páginas web que la gente puede no haber anticipado, como los resultados de búsqueda de imágenes de artículos similares introducidos en los últimos meses.