대규모 데이터 세트 기반 검색 순위 모델 특허 업데이트
게시 됨: 2018-08-22검색 순위 모델 및 대규모 데이터 세트
본 발명의 원리와 일치하는 일 양태에 따라, 문서의 순위를 매기는 방법이 제공된다. 이 방법은 문서가 선택될 가능성을 예측하는 검색 순위 모델을 생성하고 수천만 개의 인스턴스를 포함하는 데이터 세트를 사용하여 순위 모델을 훈련하는 단계를 포함할 수 있습니다.
2011년에 저는 2007년에 Google에 부여된 특허, 매우 많은 양의 데이터를 사용하는 검색 순위 모델 구축, 쿼리, 웹상의 문서 및 검색자에 관한 글을 썼습니다. 그것에 대해 쓴 게시물은 Google 및 Panda와 같은 대규모 데이터 모델이었고, 당시 내가 쓴 특허 버전은 대규모 데이터 집합을 기반으로 하는 문서 순위 지정이었습니다.
그 검색 순위 모델 특허는 계속 특허를 사용하여 세 번째로 업데이트되었습니다. 두 개의 이전 연속 특허는 부여되지 않았지만 이 최신 특허는 부여되었으며 이 단락 아래의 링크에서 찾을 수 있습니다. 설명은 2003년에 제출된 원본 버전과 동일한 것으로 보입니다. 청구 범위는 광범위하게 다시 작성되었으며 새로운 청구가 이 특허에 얼마나 많은 노력을 기울였는지를 포착하기 때문에 살펴볼 가치가 있습니다. 검색 순위 특허의 최신 버전은 다음에서 찾을 수 있습니다.
대규모 데이터 세트를 기반으로 문서 순위 지정
발명가: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer, Simon Tong
양수인: Google LLC
미국 특허: 10,055,461
부여: 2018년 8월 21일
출원일: 2015년 7월 31일
추상적 인
시스템은 적어도 부분적으로는 순위 모델을 기반으로 문서 순위를 지정합니다. 문서가 선택될 가능성을 예측하기 위해 순위 모델이 생성될 수 있습니다. 시스템은 검색 쿼리를 수신하고 검색 쿼리와 관련된 문서를 식별할 수 있습니다. 그 다음, 시스템은 순위 모델에 적어도 부분적으로 기초하여 문서의 순위를 지정하고 순위가 매겨진 문서로부터 검색 질의에 대한 검색 결과를 형성할 수 있습니다.
검색 순위 모델 특허의 업데이트된 주장
이 검색 순위 특허의 가장 초기 버전의 주장을 최신 버전과 비교하여 얼마나 변경되었는지 이해하는 것이 좋습니다. 이전에 첫 번째 버전에 대해 작성한 게시물을 읽으면 내용을 이해하는 데 도움이 될 수 있습니다. 특허가 적용되는 것과 상당히 대조를 이루기 때문에 여기에 각각의 첫 번째 주장 사본을 포함합니다.
특허의 원래 버전에서 첫 번째 주장은 훨씬 더 짧고 전혀 상세하지 않습니다. 다음 사항에 대해 알려줍니다.
문서가 선택될 가능성을 예측하는 순위 모델을 생성하는 단계를 포함하는 컴퓨터 구현 방법: 복수의 사전 검색과 관련된 정보를 저장하고, 사전 검색과 연관된 정보, 및 사전 선택 확률에 적어도 부분적으로 기초하여 순위 모델을 생성하는 단계; 대략 수천만 개의 인스턴스를 포함하는 데이터 세트를 사용하여 순위 모델을 훈련하는 단계; 검색 질의와 관련된 문서 식별; 순위 모델에 적어도 부분적으로 기초하여 문서에 점수를 매기고; 스코어링된 문서로부터 검색 질의에 대한 검색 결과를 형성하는 단계; 및 검색 결과를 출력하는 단계를 포함한다.
훨씬 더 자세한 최신 버전의 검색 순위 모델 특허의 주장과 이 주장을 비교하십시오.
주장되는 내용은 다음과 같습니다.
제공된 검색 결과에서 제1 문서가 식별되었을 때 특정 사용자에 의해 선택된 각각의 제1 문서를 각각 식별하는 복수의 훈련 인스턴스를 포함하는 훈련 데이터의 집합을 분산 검색 시스템에 의해 수신하는 단계를 포함하는 컴퓨터 구현 방법. 특정 사용자에 의해 발행된 특정 검색 질의에 응답하여 검색 시스템에 의해 특정 사용자에게; 분산 검색 시스템의 복수의 컴퓨팅 장치에 대해 트레이닝 데이터의 컬렉션을 파티셔닝하는 단계; 처리를 포함하여, 특정 사용자에 의해 제출된 특정 검색 질의에 응답하여 제공된 하나 이상의 검색 결과에 의해 식별될 때 특정 사용자가 특정 문서를 선택할 가능성을 생성하는 순위 모델을 분산 검색 시스템에 의해 생성하는 단계, 복수의 컴퓨팅 디바이스의 각각의 컴퓨팅 디바이스, 컴퓨팅 디바이스에 할당된 트레이닝 인스턴스는, 컴퓨팅 디바이스에 의해 후보 조건을 선택하고, 후보 조건은 하나 이상의 사용자 특징, 하나 이상의 쿼리 특징에 대한 값을 지정하고, 및 하나 이상의 문서 특징, 컴퓨팅 장치에 의해, 후보 조건에 대한 로컬 통계를 계산하라는 요청을 복수의 컴퓨팅 장치 중 서로 다른 컴퓨팅 장치에 전송하고, 컴퓨팅 장치에 의해 하나의 다른 컴퓨팅 장치로부터 수신 하나 이상의 다른 컴퓨팅 장치, 다른 컴퓨팅 장치에 의해 계산된 후보 조건에 대한 각각의 계산된 통계 다른 컴퓨팅 장치에 할당된 로컬 트레이닝 인스턴스의 값을 사용하여, 컴퓨팅 장치가 후보 조건에 대해 하나 이상의 다른 컴퓨팅 장치로부터 수신된 계산된 통계에 따라 후보 조건에 대한 가중치를 계산하는 단계; 컴퓨팅 디바이스에 의해, 후보 조건 및 계산된 가중치를 포함하는 새로운 규칙이 순위 모델에 추가되어야 함을 결정하고, 이에 응답하여 새로운 규칙을 순위 모델에 추가하고 컴퓨팅 디바이스에 의해 서로 제공 후보 조건 및 계산된 가중치를 포함하는 새로운 규칙이 순위 모델에 추가되어야 함을 나타내는 복수의 컴퓨팅 장치 중 컴퓨팅 장치; 제1 사용자에 의해 제출된 검색어를 수신하는 단계; 검색 질의를 만족시키는 복수의 검색 결과를 획득하는 단계 - 각각의 검색 결과는 복수의 문서 중 각각의 문서를 식별함 -; 제1 사용자의 하나 이상의 특징 및 제1 사용자에 의해 제출된 검색 질의의 하나 이상의 특징을 결정하는 단계; 검색 결과에 의해 식별된 각 문서에 대해, 검색 결과에 의해 식별된 각 문서에 대해, 검색어에 대한 응답으로 제공됨 및 각각의 문서에 대한 각각의 계산된 가능성에 기초하여 복수의 검색 결과의 순위를 매기는 단계를 포함하며, 각 문서에 대한 계산된 가능성은 검색 질의에 응답하여 제공될 때 제1 사용자가 문서를 선택할 가능성인 것입니다.
이 주장은 검색 순위 모델에 사용자, 쿼리 및 순위가 매겨진 문서에 대한 기능이 포함되어 있음을 알려줍니다. 다음은 새로운 주장에서 식별된 기능 중 일부일 뿐입니다.
- 첫 번째 사용자의 언어
- 첫 번째 사용자가 발행한 하나 이상의 이전 쿼리
- 첫 번째 사용자가 특정 문서에 액세스한 횟수
- 쿼리 언어
- 쿼리의 하나 이상의 용어
- 특정 사용자가 선택하지 않은 하나 이상의 두 번째 문서
- 특정 질의에 대한 응답으로 제공되는 검색 결과의 순서로 선택된 첫 번째 문서의 위치를 나타내는 데이터
- 특정 검색어에 대한 응답으로 특정 사용자에게 제공되는 검색 결과에서 선택된 첫 번째 문서 위에 순위가 지정된 여러 문서
- 첫 번째 사용자의 위치
최신 버전의 특허에는 훨씬 더 길어지고 살펴보고 주의를 기울일 가치가 있는 다른 주장이 있습니다.
특허의 첫 번째 버전은 검색자와 쿼리 및 문서가 어떻게 다른지에 대해 3개로 분할된 다양한 데이터 인스턴스에 주의를 기울이고 있음을 알려줍니다. 원래 특허에 대한 첫 번째 게시물에서 말했듯이:
첫 번째 Google 특허에서 구축 중인 모델은 사용자의 데이터, 사용자가 사용한 쿼리, 선택했거나 선택하지 않았을 수 있는 문서의 조합을 살펴보았습니다. 이러한 각 조합을 "인스턴스"라고 합니다. 인스턴스는 데이터의 "삼중"입니다: (u, q, d), 여기서 u는 사용자 정보, q는 사용자의 쿼리 데이터, d는 쿼리 데이터에서 반환된 페이지와 관련된 문서 정보입니다.
검색 순위 모델 특허의 업데이트에 대해 가져 가라.
Google은 Google의 광범위한 핵심 알고리즘 업데이트 확인: 사실 및 조언에 설명된 대로 최근 대규모 핵심 업데이트를 진행했습니다. Google은 오랜 기간 동안 하루에 2번 정도 핵심 검색 알고리즘을 업데이트해 왔다는 것을 알고 있습니다. 이 검색 순위 모델 특허의 새 버전에 반영된 업데이트가 언제 적용되었는지는 알 수 없지만 연속 특허로서 이상적으로는 특허 이면의 프로세스 변경을 반영하기 때문에 적용되었을 수 있습니다. 시간이 지남에 따라 알고리즘에 배치될 수 있습니다. Google이 페이지 순위를 매기기 위해 이 접근 방식을 사용했다면 핵심 검색 알고리즘의 일부로 간주될 수 있습니다. 이 특허는 검색 순위를 결정하기 위해 사용자의 쿼리 및 문서와 관련된 매우 많은 양의 데이터를 고려합니다.

