Google에서 쿼리 패턴 생성
게시 됨: 2019-11-14쿼리가 의도 분류자를 결정하는 방법
누군가가 무언가를 검색할 때 검색 엔진의 검색 상자에 몇 가지 키워드를 입력합니다.
Google은 최근 검색어가 검색에서 볼 수 있는 패턴과 관련된 특허를 취득했습니다.
일반적으로 검색에 사용되는 키워드는 검색 이면의 의도를 나타낼 수 있으며 "사용자가 원하는 정보의 범위를 나타낼 수 있으며 분류자를 사용하여 사용자가 수행한 하나 이상의 작업에 대한 컨텍스트를 캡처할 수 있습니다."
이것이 이 새로운 특허의 초점입니다.
분류기에 대해 자세히 설명하고 검색의 목적을 더 잘 이해하고 "분류기를 사용하여 검색에 컨텍스트를 할당"하기 위해 Google과 같은 검색 엔진에서 이를 추론할 수 있는 방법을 알려줍니다.
특허는 이에 대한 예를 제공합니다. 이는 의도(예: 분류자)가 검색자가 검색 결과의 쿼리에 대한 응답으로 표시되기를 원하는 하나 이상의 주제와 해당 정보가 해당 주제에 대해 얼마나 구체적일 수 있는지에 대해 자세히 알려줄 수 있음을 알려줍니다.
즉, Google은 검색어에 대한 답변을 주제 카테고리로 결정하기 위해 검색과 관련된 사용자 입력을 살펴봅니다.
쿼리 및 의도의 예
특허에서 검색 쿼리의 몇 가지 관련 예: [Barack Obama] 및 [Obama 2004 컨벤션 연설]. 이러한 쿼리는 특정 수준이 다른 약간 다른 주제를 다루는 Barack Obama에 대한 정보의 필요성을 보여줍니다.
Google은 쿼리를 살펴보고 그 뒤에 숨겨진 의도가 무엇인지 결정합니다. 그런 다음 해당 의도에 따라 분류자를 할당합니다.
이 특허는 검색 쿼리를 입력하는 사용자가 나타내는 하나 이상의 의도와 일치하는 검색 콘텐츠를 제공하는 데 유용할 수 있는 추가 쿼리, 쿼리 패턴 및 쿼리 그래프를 생성하기 위해 검색 쿼리, 쿼리 패턴 및 쿼리 문서를 분석합니다.

검색어와 검색 문서는 사용자 의도의 해상도가 다를 수 있다고 들었습니다. Google은 해당 쿼리에 대한 응답으로 사용자 의도가 무엇인지 파악하기 위해 쿼리에 대해 반환될 수 있는 문서를 볼 수 있습니다.
특허에 따르면 이러한 문서를 볼 때 얻을 수 있는 이점은 다음과 같습니다.
이러한 방식으로 문서에서 암시하는 의도 분리를 정확히 활용하는 알고리즘을 사용할 수 있으며 의도는 분류기를 사용하여 쿼리에 투영될 수 있습니다. 이 매핑을 사용하여 검색 결과를 사용자가 입력한 검색 쿼리와 일치시키는 데 사용할 수 있는 쿼리 패턴을 생성하고 일치시킬 수 있습니다.
특허 테이크어웨이
이 접근 방식에 대해 생각해보면, 키워드 연구를 수행하는 경우 최적화를 고려 중인 키워드를 검색하고 이에 대한 응답으로 Google이 반환하는 문서를 주의 깊게 살펴보고 Google에서 이러한 키워드가 제안하는 의도를 파악하는 것입니다.
자동화된 쿼리 패턴 생성
의도를 결정할 수 있는 것 외에도 이 특허 뒤에 있는 프로세스의 초점인 것 같습니다.
… 여기에 설명된 시스템 및 방법은 사용자 입력 검색 쿼리와 관련된 쿼리 패턴을 감지하고 감지된 쿼리 패턴을 기반으로 유사한 쿼리 패턴을 자동으로 생성할 수 있습니다. 특히, 여기에 설명된 시스템 및 방법은 액세스된 검색 문서와 유사한 문서를 찾는 데 사용될 수 있는 하나 이상의 쿼리 패턴을 생성하기 위해 검출된 쿼리 패턴과 일치하는 검색 문서에 액세스할 수 있습니다. 쿼리에서 의도를 결정하기 위해 검색 문서를 사용하는 것은 문서에 의해 암시된 의도 및/또는 하위 의도를 활용하고 이러한 의도 및/또는 하위 의도를 수신된 검색 쿼리에 투영하는 이점을 제공할 수 있습니다.
따라서 Google은 쿼리 이면의 의도를 더 잘 이해하는 것 외에도 쿼리 이면의 패턴을 식별하기 위해 노력할 수 있습니다. 이 특허는 몇 가지 예를 지적합니다.
본 명세서에서 사용되는 바와 같이, 질의 템플릿은 질의 부분(예를 들어, 하위 문구) 및 대체 부분을 지정하기 위한 지원을 포함하는 질의 문구를 나타낸다. 예를 들어 [weather in X] 쿼리 템플릿은 [weather in Paris], [weather in NYC] 및 [NYC weather]와 같은 쿼리를 나타내는 데 사용할 수 있습니다. "X"는 대체 부분을 나타내고 용어 "날씨", "NYC" 및 "파리"는 쿼리 부분을 나타냅니다.

따라서 여러 예제가 있을 수 있는 쿼리 패턴을 쿼리 템플릿이라고 할 수 있습니다. [weather in X]와 같은 쿼리 패턴은 "날씨"라는 용어와 지리적 위치를 식별하는 용어를 포함하는 모든 쿼리를 나타낼 수 있습니다(예: [Paris의 날씨], [NYC의 날씨], [동해안의 날씨 ] 및 [내 주변 날씨].
쿼리 패턴에는 다음이 포함될 수 있습니다.
- 수신된 쿼리를 일치시키고 일치된 쿼리를 해석하기 위한 하나 이상의 미리 정의된 규칙
- 언어 식별자(예: 프랑스어)
- 국가 또는 도메인(예: 프랑스)
- 불용어(무시할 수 있음)
- 커넥터
- 신뢰 값
- 쿼리 분할 필터 전략
쿼리 어노테이터는 쿼리 패턴 생성에서도 사용될 수 있습니다.
쿼리 애노테이터는 주어진 쿼리에 나타나는 엔터티를 결정합니다. 여기서 각 엔터티는 언어와 독립적인 표준 표현을 갖습니다. 예를 들어 쿼리 "날씨 파리"에 쿼리 애노테이터를 적용하면 문자열 "파리"에 주석을 달 수 있습니다. 프랑스의 수도인 "Paris"의 표준 표현을 나타내는 고유 식별자(예: "/m/05qtj")로. 특허의 고유 식별자는 Google이 엔티티를 식별하기 위해 검색에서 다른 곳에서 사용했던 Freebase의 머신 ID 번호입니다(참조: FreeBase 엔티티 번호를 사용한 Google 검색의 이미지 검색 및 동향).

이러한 쿼리 템플릿, 쿼리 패턴 및 쿼리 어노테이터를 사용하여 Google은 동일한 사용자 의도를 표현할 가능성이 있는 다른 쿼리 패턴을 찾거나 생성할 수 있습니다.
예를 들어, [weather in X]와 같은 쿼리 패턴에는 다음도 포함됩니다.
[X 날씨]
[X의 날씨는 어떤가요?]
[X의 날씨는 어떤가요?]
[X의 온도는 몇도입니까?]
[X에 비가 오나요?]
등.
이는 [파리 날씨]를 검색하는 사용자와 [파리 날씨]를 검색하는 다른 사용자가 동일한 유형의 정보를 보고자 하는 의도가 비슷할 수 있기 때문입니다.
자동 쿼리 패턴 생성 규모
이와 같은 특허를 읽으면 얼마나 자주 사용되는지 궁금할 것입니다. 때때로 우리는 특허에서 다음과 같은 진술을 받을 만큼 충분히 운이 좋았습니다(여기에 설명된 "수십억 개의 웹 문서"에 유의하십시오.
패턴 생성기는 검색 쿼리에서 반복되는 하위 문구를 사용하여 유사한 검색 쿼리 세트를 패턴 세트로 변환하도록 구성할 수 있습니다. 패턴 세트는 인트라넷에서 사용할 수 있는 수십억 개의 웹 문서를 기반으로 패턴 그래프로 집계될 수 있습니다. 일반적으로 인터넷의 모든 문서는 유사할 수 있는 여러 쌍의 쿼리 패턴을 제공할 수 있습니다. 이러한 쌍은 집계된 패턴 그래프의 기초입니다. 집계 패턴 그래프에서 각 쿼리 패턴은 노드를 나타내며 두 개의 유사한 노드는 모두 그래프의 가장자리에 연결됩니다. 연결된 두 노드 간의 유사성은 두 노드를 연결하는 가장자리의 유사도 점수로 정량화할 수 있습니다. 한 쌍의 유사한 노드는 유사한 이웃으로 알려질 수 있습니다. 유사한 이웃을 사용하여 주제에서 벗어난 후보 패턴을 필터링할 수 있음에도 불구하고 유사한 검색 결과를 반환하는 두 패턴을 기반으로 두 패턴이 유사한 것으로 간주되는 예에서 부정확한 검색 결과를 수신하는 사용자의 발생을 줄일 수 있는 이점을 제공할 수 있습니다. 두 패턴의 의도는 실제로 유사하지 않습니다(예: 쿼리 패턴 [X 처리] 및 [X 증상]). 이는 많은 문서가 두 패턴 모두에서 트래픽을 받기 때문입니다. 유사한 이웃 기준을 사용하여, 시스템(100)에서 사용되는 알고리즘은 관련된 문서가 동일한 검색 결과에 나타나는 경우에도 특정 패턴이 실제로 유사하지 않다고 결정할 수 있습니다.
우리는 추천 스니펫에 대한 쿼리 템플릿을 설명하는 특허도 보았습니다. 나는 Featured Snippets - Natural Language Search Results for Intent Queries 게시물에서 하나에 대해 썼습니다. 이는 추천 스니펫으로 이상적으로 응답할 수 있는 쿼리 패턴을 식별하려고 시도합니다. 이 특허에는 "추천 스니펫"이라는 문구가 표시되지 않지만 쿼리 패턴의 예가 많이 있습니다.
예를 들어, "캘리포니아에서 할 일"이라는 주제와 관련된 문서는 다음과 같은 쿼리를 사용하는 검색자가 제공하고 선택할 수 있습니다.
(a) “캘리포니아에서 해야 할 일”
(b) “캘리포니아에서 해야 할 일”
(c) “캘리포니아 명소”
(d) “캘리포니아에서 할 수 있는 최고의 일”
등.
유사한 쿼리는 엔티티 "California"를 "Ohio"와 같은 엔티티로 교환할 수 있습니다.
자동 쿼리 패턴 생성 특허의 시사점
이 특허를 통해 나는 과거에 Excel에서 연결 기능을 사용하여 쿼리 패턴과 템플릿을 찾고 여기에 쿼리 어노테이터를 추가했던 키워드 리서치가 생각났습니다.
종종 쿼리의 의도에 대해 작성할 때 탐색, 정보 및 트랜잭션 쿼리를 언급하는 사람들을 봅니다. 쿼리의 의도에 대해 쓴 마지막 시간 중 하나는 Google이 탐색 쿼리 및 리소스를 식별하는 방법 게시물에 있습니다. 쿼리 이면의 의도를 더 잘 이해하기 위해 쿼리 패턴을 살펴보는 이 특허는 검색이 정보 제공, 탐색 또는 트랜잭션인지 여부보다 검색 의도에 관해 더 정확한 정보를 제공할 수 있습니다.
2014년 Google은 쿼리 로그 정보를 사용하여 표준 쿼리를 포함하는 검색 온톨로지를 구축하는 Biperpedia 프로젝트를 실행했습니다. 우리는 Google의 지식 그래프에서 볼 수 있는 것과 같은 프리베이스 번호에 대해 이 특허에서 언급된 엔티티 머신 ID를 보았습니다. 따라서 Biperpedia 및 지식 그래프와 같은 소스는 쿼리 템플릿에 대한 정보를 수집하여 다른 의도를 가진 쿼리에 응답하는 데 사용할 수 있는 곳입니다.
이 자동 쿼리 패턴 생성 특허는 다음에서 찾을 수 있습니다.
자동 쿼리 패턴 생성
발명가: Tomer Shmiel, Dvir Keysar 및 Vered Cohen
양수인: GOOGLE LLC
미국 특허: 10,467,256
부여: 2019년 11월 5일
출원일: 2016년 8월 3일
추상적 인
패턴 그래프를 생성하기 위한 컴퓨터 구현 방법을 포함하는 하나의 일반적인 양태가 설명된다. 방법은 웹 문서의 코퍼스에 관한 데이터에 액세스하는 것을 포함할 수 있습니다. 데이터는 복수의 질의-문서 쌍을 포함할 수 있다. 방법은 또한 복수의 쿼리-문서 쌍에서 적어도 하나의 쿼리 패턴을 식별하는 단계를 포함할 수 있고 쿼리 패턴은 코퍼스 내의 웹 문서의 일부와 연관될 수 있다. 방법은 또한 적어도 하나의 쿼리 패턴에서 복수의 하위 구문을 식별하는 단계, 웹 문서의 코퍼스에서 복수의 하위 구문 중 적어도 하나를 포함하는 복수의 다른 쿼리 패턴을 결정하는 단계, 및 할당하는 단계를 포함할 수 있습니다. 적어도 하나의 쿼리 패턴 및 하위 구문 중 적어도 하나를 포함하는 복수의 다른 쿼리 패턴 각각에 대한 분류기.
