Как поисковая система Google использует машинное обучение
Опубликовано: 2018-04-27Некоторые люди недавно спрашивали меня, почему я считаю важным делиться патентами, описывающими то, что может предложить поисковая система, например, недавно добавленная система поиска работы. Юридическая цель патента - дать патентообладателю возможность запрещать другим использовать тот же процесс, что и они, и удерживать других от посягательства на их изобретения. Компромисс за такое исключение заключается в том, чтобы в конечном итоге патенты публиковались, чтобы дать другим примеры того, как люди вводят новшества, чтобы попытаться преодолеть проблемы, что может быть вдохновляющим, и дать людям некоторое представление о предположениях, которые могут иметь такие изобретатели относительно поиска. , и поисковики, и Интернет.
Система поиска работы Google
Всегда весело, когда Google вводит какие-то новые функции, а затем ищет новые патенты в поисковой системе, эта новая функция является предметом одного из этих патентов. Например, вы могли заметить, что Google представил систему поиска вакансий Google, результаты можно увидеть отсюда:

Об этой системе поиска работы были статьи:
Система поиска вакансий Google получает диапазоны зарплат, лучший фильтр местоположения и многое другое.
Есть также страницы справки Google о поиске работы Google:
Ищите вакансии в Google
Если бы Google запустил поисковую систему сегодня ...
Новый патент имеет очень простое название «Поисковая машина». Поскольку он использовал такой подход, это заставило меня задуматься о том, каким мог бы быть Google, если бы люди, работающие над ним, начали создавать его сегодня. Мне показалось интересным, что они включили следующие определения того, что такое поисковая система, с которой начинается описание патента:
Поисковую машину в целом можно описать как любую программу, которая выполняет поиск и извлекает сохраненные данные. Однако в зависимости от поставленной задачи поисковую систему можно настроить различными способами. Например, некоторые поисковые системы могут быть настроены для выполнения поиска и извлечения по ключевым словам. Такие поисковые машины могут идентифицировать релевантные результаты поиска, основываясь, по крайней мере частично, на том, сколько раз поисковый термин встречается в конкретном ресурсе или на метаданных конкретного ресурса. В качестве альтернативы или также некоторые поисковые системы могут идентифицировать результаты поиска как отвечающие на запрос, потому что поставщик ресурсов заплатил поставщику поисковой системы денежную сумму, чтобы вернуть ресурс (-ы) поставщика в ответ на поисковые запросы, которые включают конкретный поисковый запрос. . Однако вышеупомянутые способы, которыми поисковая машина может идентифицировать результаты поиска в ответ на запрос, являются просто примерными.
Поисковая машина также может быть настроена для определения результатов поиска в ответ на запрос множеством других способов. При необходимости можно использовать настраиваемую конфигурацию поисковой машины для решения конкретных проблем, связанных с поиском и извлечением информации. Настройка поисковой машины может включать в себя изменение способа, которым поисковая машина выполняет поиск, идентифицирует релевантные результаты поиска, ранжирует идентифицированные результаты поиска и т.п.
Расширение поиска по ключевым словам в поисковой системе Google
Этот патент действительно сосредоточен на поиске работы, а не на всех поисках. Он более подробно описывает детали того, что предлагает Google для поиска работы, и почему реализация поиска работы Google может быть улучшением по сравнению с поиском работы, предлагаемым в других местах:
В некоторых реализациях предоставляется модель идентификации работы, которая улучшает поиск работы за счет повышения качества результатов поиска, предоставляемых в ответ на запрос поиска работы. Результаты поиска улучшаются, потому что модель идентификации вакансий способна идентифицировать релевантные объявления о вакансиях, которые в противном случае остались бы незамеченными обычными алгоритмами из-за присущих ограничений поиска по ключевым словам. Используя дополнительные методы, отличные от обычного поиска на основе ключевых слов или в дополнение к нему, модель идентификации работы может идентифицировать релевантные объявления о вакансиях, которые включают названия должностей, которые не соответствуют ключевым словам полученного запроса поиска работы. Например, в ответ на запрос о поиске работы, который ищет возможности трудоустройства для «патентного гуру», модель идентификации работы может идентифицировать объявления о вакансиях, связанные с «патентным поверенным», «поверенным по интеллектуальной собственности», «поверенным» или подобное, аналогичное, похожее.
Патент дает нам представление об этом на прилагаемом к нему чертеже:

Интересно, что этот поиск расширяется до подобного поиска по ключевым словам. Изобретатели дают нам некоторое представление о том, как машинное обучение играет роль, помогая выйти за рамки соответствия ключевых слов в запросе объявлениям о вакансиях, как они описывают здесь:
Согласно одной реализации предмет этой спецификации может быть воплощен в способе облегчения поиска работы. Метод может включать в себя действия по определению векторного словаря, определение таксономии занятий, которая включает несколько различных занятий, получение нескольких помеченных элементов данных обучения, при этом каждый помеченный элемент данных обучения связан по крайней мере с (i) названием должности и (ii) занятие, генерирующее для каждого из соответствующих помеченных элементов данных обучения вектор занятия, который включает в себя вес признака для каждого соответствующего термина в векторном словаре, связывающий каждый соответствующий вектор занятия с занятием в таксономии занятий на основе занятия помеченный элемент обучающих данных, используемый для генерации вектора занятий, получение поискового запроса, который включает в себя строку, относящуюся к характеристике одной или нескольких потенциальных вакансий, создание первого вектора на основе полученного запроса, определение для каждого соответствующего занятия из множества профессий в таксономии профессий, показатель достоверности, указывающий на то, что вектор запросаправильно классифицируется по соответствующему занятию, выбирая конкретное занятие, которое связано с наивысшим показателем достоверности, получая одно или несколько объявлений о вакансиях с использованием выбранного занятия и предоставляя полученные объявления о вакансиях в наборе результатов поиска в ответ на поисковый запрос .
Таксономия профессий для системы поиска работы
Патент рассказывает нам о том, как можно было бы развить таксономию профессий, на которой основывается поиск работы:
Операции могут включать в себя прием поискового запроса, который включает в себя строку, относящуюся к характеристике одной или нескольких вакансий, создание на основе полученного запроса вектора запроса, который включает в себя вес характеристики для каждого соответствующего термина в заранее определенном словаре векторов, определение , для каждой соответствующей профессии из нескольких профессий в таксономии профессий, показатель достоверности, который указывает, правильно ли классифицирован вектор запроса в соответствующей профессии, выбор конкретной профессии, которая связана с наивысшей оценкой достоверности, получение одного или нескольких объявления о вакансиях с использованием выбранной профессии и предоставление полученных объявлений о вакансиях в наборе результатов поиска в ответ на поисковый запрос.
Веса характеристик в терминах занятий в системе поиска работы
Патент также расширяет функциональный вес терминов в запросах для поисковой системы:
В некоторых реализациях вес признака может быть основан, по меньшей мере частично, на первом значении, представляющем частоту термина, которая определяется, по меньшей мере частично, на основе нескольких появлений каждого соответствующего термина в названии должности соответствующих обучающих данных. пункт. В качестве альтернативы или помимо этого вес признака может быть основан, по крайней мере частично, на втором значении, представляющем обратную частоту занятий, которая определяется, по крайней мере частично, на основе нескольких профессий в таксономии занятий, где каждый соответствующий термин в работе присутствует заголовок соответствующего элемента данных обучения. В качестве альтернативы или помимо этого вес признака может быть основан, по крайней мере частично, на третьем значении, представляющем производную по роду занятий, которая основана, по крайней мере частично, на плотности каждого соответствующего термина в названии должности соответствующих обучающих данных. элемент по каждой из соответствующих профессий в таксономии занятий.
В некоторых реализациях вес признака может быть основан, по крайней мере частично, на обоих (i) втором значении, представляющем обратную частоту занятий, которая определяется, по крайней мере частично, на основе нескольких профессий в таксономии занятий, где каждый соответствующий термин в названии должности соответствующего элемента данных обучения присутствует и (ii) третье значение, представляющее производную профессии, которая основана, по крайней мере частично, на плотности каждого соответствующего термина в названии должности соответствующего элемента данных обучения по каждая из соответствующих профессий в таксономии занятий. В качестве альтернативы, вес признака может быть основан на сумме (i) второго значения, представляющего обратную частоту занятости, и (ii) одной трети третьего значения, представляющего производную занятости.
Патент на поисковую систему
(US20180107983) ПОИСКОВЫЙ ДВИГАТЕЛЬ
Номер приложения: 15296230
Дата подачи заявки: 18.10.2016
Номер публикации: 20180107983
Дата публикации: 19.04.2018
Изобретатели: Сейед Реза Мир Гадери, Сюэцзюнь Тао, Е Тиан, Мэтью Кортни, Пей-Чун Чен и Кристиан Поссе.
Абстрактный:
Способы, системы и устройства, включая компьютерные программы, закодированные на запоминающих устройствах, для выполнения поиска вакансий. В одном аспекте система включает в себя устройство обработки данных и машиночитаемое запоминающее устройство, на котором хранятся инструкции, которые при выполнении устройством обработки данных заставляют устройство обработки данных выполнять операции. Операции включают в себя определение векторного словаря, определение таксономии занятий, которая включает в себя несколько разных профессий, получение нескольких помеченных элементов данных обучения, при этом каждый помеченный элемент данных обучения связан по крайней мере с (i) названием должности и (ii) занятием, создание для каждого из соответствующих помеченных элементов обучающих данных вектора занятий, который включает в себя вес признака для каждого соответствующего термина в векторном словаре, и связывание каждого соответствующего вектора занятий с занятием в таксономии занятий на основе занятия помеченных обучающих данных элемент, используемый для генерации вектора занятости.

