Cómo el motor de búsqueda de empleo de Google utiliza el aprendizaje automático
Publicado: 2018-04-27Algunas personas me han preguntado recientemente por qué creo que es importante compartir patentes que describen cosas que un motor de búsqueda podría ofrecer, como un motor de búsqueda de empleo recientemente agregado El propósito legal detrás de una patente es darle al titular de la patente la oportunidad de excluir a otros de utilizar el mismo proceso que ellos y evitar que otros infrinjan sus invenciones. La compensación detrás de tal exclusión es un requisito de que las patentes terminen siendo publicadas, para dar a otros ejemplos de cómo las personas están innovando para tratar de superar los problemas, lo que puede ser inspirador, y brindar a las personas algunas ideas sobre las suposiciones que dichos inventores pueden tener sobre la búsqueda. y buscadores, y la Web.
Motor de búsqueda de empleo de Google
Siempre es divertido cuando Google presenta algunas características nuevas y luego, al buscar nuevas patentes en el motor de búsqueda, esa nueva característica es objeto de una de esas patentes. Por ejemplo, es posible que haya notado que Google introdujo un motor de búsqueda de empleo de Google, como puede ver los resultados desde aquí:

Ha habido artículos sobre ese motor de búsqueda de empleo:
El motor de búsqueda de trabajos de Google obtiene rangos de salario, un mejor filtro de ubicación y más
También hay páginas de ayuda de Google sobre la búsqueda de empleo de Google:
Buscar trabajos en Google
Si Google iniciara un motor de búsqueda hoy ...
La nueva patente tiene un nombre muy simple, "motor de búsqueda". Debido a que adoptó ese enfoque, me hizo preguntarme cómo sería Google si las personas que trabajan en él comenzaran a construirlo hoy. Me pareció interesante que incluyeran estas definiciones de lo que es un motor de búsqueda, que comienza con la descripción de la patente:
Un motor de búsqueda puede describirse generalmente como cualquier programa que ejecuta una búsqueda y recupera datos almacenados. Sin embargo, según la tarea en cuestión, un motor de búsqueda se puede configurar de varias formas diferentes. Por ejemplo, algunos motores de búsqueda pueden configurarse para realizar búsquedas y recuperaciones basadas en palabras clave. Dichos motores de búsqueda pueden identificar resultados de búsqueda relevantes basados, al menos en parte, en el número de veces que aparece un término de búsqueda en un recurso en particular, o en los metadatos del recurso en particular. Alternativamente, o también, algunos motores de búsqueda pueden identificar que los resultados de la búsqueda responden a una consulta porque un proveedor de recursos pagó al proveedor del motor de búsqueda una suma de dinero para devolver los recursos del proveedor en respuesta a consultas de búsqueda que incluyen un término de búsqueda en particular. . Sin embargo, las formas antes mencionadas en las que un motor de búsqueda puede identificar resultados de búsqueda que responden a una consulta son meramente ejemplares.
También se puede configurar un motor de búsqueda para identificar los resultados de búsqueda que responden a una consulta en una variedad de otras formas. Se puede emplear una configuración personalizada de un motor de búsqueda, según sea necesario, para resolver problemas particulares relacionados con la búsqueda y la recuperación. La personalización de un motor de búsqueda puede incluir alterar la forma en que un motor de búsqueda ejecuta una búsqueda, identifica resultados de búsqueda relevantes, clasifica los resultados de búsqueda identificados, o similares.
Ampliación de las búsquedas de palabras clave en el motor de búsqueda de empleo de Google
Esta patente se centra en la búsqueda de empleo, más que en todas las búsquedas. Se profundiza en la descripción de los detalles detrás de lo que Google ofrece con la búsqueda de trabajo y por qué la implementación de la búsqueda de trabajo de Google podría ser una mejora con respecto a las búsquedas de trabajo que se ofrecen en otros lugares:
En algunas implementaciones, se proporciona un modelo de identificación de trabajo que mejora la búsqueda de trabajo al mejorar la calidad de los resultados de búsqueda proporcionados en respuesta a una consulta de búsqueda de trabajo. Los resultados de la búsqueda se mejoran porque el modelo de identificación de puestos de trabajo es capaz de identificar ofertas de trabajo relevantes que, de otro modo, pasarían desapercibidas para los algoritmos convencionales debido a las limitaciones inherentes de la búsqueda basada en palabras clave. Al emplear métodos adicionales que no sean, o además de, la búsqueda convencional basada en palabras clave, el modelo de identificación de trabajo puede identificar ofertas de trabajo relevantes que incluyen títulos de trabajo que no coinciden con las palabras clave de una consulta de búsqueda de trabajo recibida. Por ejemplo, en respuesta a una consulta de búsqueda de trabajo que busca oportunidades de trabajo para un "gurú de las patentes", el modelo de identificación de trabajo puede identificar ofertas de trabajo relacionadas con un "abogado de patentes", un "abogado de propiedad intelectual", un "abogado" o similares.
La patente nos deja entrever esto en este dibujo que la acompaña:

Es interesante que esta búsqueda se expanda a una búsqueda basada en palabras clave como esa. Los inventores nos brindan información sobre cómo el aprendizaje automático desempeña un papel para ayudar a ir más allá de la coincidencia de palabras clave en una consulta a las ofertas de trabajo, como describen aquí:
Según una implementación, el objeto de esta especificación puede incorporarse en un método para facilitar la búsqueda de empleo. El método puede incluir acciones para definir un vocabulario vectorial, definir una taxonomía de ocupación que incluye múltiples ocupaciones diferentes, obtener múltiples elementos de datos de capacitación etiquetados, en los que cada elemento de datos de capacitación etiquetado está asociado con al menos (i) un título de trabajo, y (ii) una ocupación, generando, para cada uno de los respectivos elementos de datos de entrenamiento etiquetados, un vector de ocupación que incluye un peso de característica para cada término respectivo en el vocabulario vectorial, asociando cada vector de ocupación respectivo con una ocupación en la taxonomía de ocupación basada en la ocupación del elemento de datos de entrenamiento etiquetado utilizado para generar el vector de ocupación, recibir una consulta de búsqueda que incluye una cadena relacionada con una característica de una o más oportunidades laborales potenciales, generar un primer vector en base a la consulta recibida, determinando, para cada ocupación respectiva del múltiplo ocupaciones en la taxonomía de ocupaciones, una puntuación de confianza que indica si el vector de consultaestá correctamente clasificado en la ocupación respectiva, seleccionando la ocupación particular que está asociada con el puntaje de confianza más alto, obteniendo una o más ofertas de trabajo utilizando la ocupación seleccionada y proporcionando las ofertas de trabajo obtenidas en un conjunto de resultados de búsqueda en respuesta a la consulta de búsqueda .
Una taxonomía ocupacional para el motor de búsqueda de empleo
La patente nos dice cómo esa taxonomía de ocupaciones en la que se basan las búsquedas de empleo también podría desarrollarse más:
Las operaciones pueden incluir recibir una consulta de búsqueda que incluye una cadena relacionada con una característica de una o más oportunidades laborales, generando, en base a la consulta recibida, un vector de consulta que incluye un peso de característica para cada término respectivo en un vocabulario vectorial predeterminado, determinando , para cada ocupación respectiva de las múltiples ocupaciones en la taxonomía ocupacional, un puntaje de confianza que es indicativo de si el vector de consulta está correctamente clasificado en la ocupación respectiva, seleccionando la ocupación particular que se asocia con el puntaje de confianza más alto, obteniendo uno o más ofertas de trabajo utilizando la ocupación seleccionada y proporcionando las ofertas de trabajo obtenidas en un conjunto de resultados de búsqueda en respuesta a la consulta de búsqueda.
Incluir ponderaciones en términos de ocupación en el motor de búsqueda de empleo
La patente también amplía el peso de la función para los términos en las consultas para el motor de búsqueda de empleo:
En algunas implementaciones, el peso de la característica puede basarse, al menos en parte, en un primer valor que representa una frecuencia de término que se determina, basado al menos en parte, en varias apariciones de cada término respectivo en el título de trabajo de los datos de entrenamiento respectivos. ít. Alternativamente, o además, el peso de la característica puede basarse, al menos en parte, en un segundo valor que representa una frecuencia de ocupación inversa que se determina en función, al menos en parte, de varias ocupaciones en la taxonomía de ocupaciones donde cada término respectivo en el trabajo está presente el título del elemento de datos de entrenamiento respectivo. Alternativamente, o además, el peso de la característica puede basarse, al menos en parte, en un tercer valor que representa una derivada de ocupación que se basa, al menos en parte, en una densidad de cada término respectivo en el título de trabajo de los datos de capacitación respectivos. elemento en cada una de las respectivas ocupaciones en la taxonomía de ocupaciones.
En algunas implementaciones, la ponderación de la característica puede basarse, al menos en parte, en (i) un segundo valor que representa la frecuencia de ocupación inversa que se determina con base, al menos en parte, en varias ocupaciones en la taxonomía de ocupaciones donde cada término respectivo en el título de trabajo del respectivo elemento de datos de capacitación está presente y (ii) un tercer valor que representa un derivado de ocupación que se basa, al menos en parte, en una densidad de cada término respectivo en el título de trabajo del respectivo elemento de datos de capacitación a través de cada una de las respectivas ocupaciones en la taxonomía de ocupaciones. Alternativamente, el peso de la característica puede basarse en una suma de (i) el segundo valor que representa la frecuencia de ocupación inversa, y (ii) un tercio del tercer valor que representa la derivada de ocupación.
La patente del motor de búsqueda de empleo
(US20180107983) MOTOR DE BÚSQUEDA
Número de solicitud: 15296230
Fecha de solicitud: 18.10.2016
Número de publicación: 20180107983
Fecha de publicación: 19.04.2018
Inventores: Seyed Reza Mir Ghaderi, Xuejun Tao, Ye Tian, Matthew Courtney, Pei-Chun Chen y Christian Posse
Abstracto:
Métodos, sistemas y aparatos, incluidos programas informáticos codificados en dispositivos de almacenamiento, para realizar una búsqueda de oportunidades laborales. En un aspecto, un sistema incluye un aparato de procesamiento de datos y un dispositivo de almacenamiento legible por computadora que tiene instrucciones almacenadas en el mismo que, cuando son ejecutadas por el aparato de procesamiento de datos, hacen que el aparato de procesamiento de datos realice operaciones. Las operaciones incluyen definir un vocabulario vectorial, definir una taxonomía de ocupación que incluye múltiples ocupaciones diferentes, obtener múltiples elementos de datos de capacitación etiquetados, en los que cada elemento de datos de capacitación etiquetado está asociado con al menos (i) un título de trabajo y (ii) una ocupación, generar, para cada uno de los respectivos elementos de datos de entrenamiento etiquetados, un vector de ocupación que incluye un peso de característica para cada término respectivo en el vocabulario de vectores y asociar cada vector de ocupación respectivo con una ocupación en la taxonomía de ocupación basada en la ocupación de los datos de entrenamiento etiquetados elemento utilizado para generar el vector de ocupación.

