Google이 의미론적 해석을 사용하여 모호한 쿼리를 해석하는 방법
게시 됨: 2019-08-15모호한 쿼리 및 의미론적 해석
누군가 Google에서 모호한 질문을 하면 해당 질문에 어떻게 응답하나요? 쿼리 이면의 의도를 이해하려고 시도하는 것으로 시작할 수 있습니다. 그 모호한 쿼리를 입력한 사람이 의미했을 수 있는 것을 해석하고 올바른 단어를 찾습니다. 이것은 검색자를 만족시킬 수 있는 답변을 찾기 위해 사용되는 표준 쿼리 형식일 수 있습니다. 이것은 내가 매우 최근에 본 것과 동일한 예제 쿼리를 사용한 두 번째 특허였습니다. "해리포터는 얼마나 길죠?"
나는 트위터에서 이 예를 언급했고 그것이 어떻게 대답될 수 있을지에 대한 많은 생각을 받았습니다.
Google은 "해리 포터는 얼마입니까?"라는 질문에 어떻게 대답할까요? 이것을 구글 특허에서 예시로 본 것은 이번이 두 번째인데, 첫 번째 특허와 다른 설명이 이번 두 번째다. 어떻게 대답하시겠습니까?
— Bill Slawski(@bill_slawski) 2019년 8월 8일
나는 최근에 Google이 쿼리에서 모호한 질문에 어떻게 답변합니까?에 대한 게시물을 썼습니다. 또한 해당 예제 쿼리를 사용했습니다. Google은 일주일 후 부여된 특허에서 동일한 영역 중 일부를 포괄하는 특허를 부여받았으며 더 풍부하고 자세한 답변을 제공합니다.
이 게시물과 함께 작성 중인 특허는 특히 검색 쿼리의 다양한 의미론적 해석을 평가하는 것에 관한 것입니다. 다음은 "해리 포터 기간은 얼마입니까?"와 같은 모호한 쿼리에 대한 응답을 제공하기 위해 취할 수 있는 단계입니다.
- 기술에는 특정 검색 질의에 대한 하나 이상의 의미론적 해석을 결정하는 것이 포함됩니다. 이러한 의미론적 해석 각각은 적어도 하나의 표준 쿼리와 연결됩니다. 각 의미 해석에 대해 원래 검색 쿼리 및 관련 표준 쿼리를 기반으로 수정된 검색 쿼리가 생성됩니다.
- 그런 다음 특정 검색 쿼리 및 수정된 검색 쿼리에 대한 검색 결과를 얻습니다.
- 수정된 각 검색어의 검색결과와 원본 검색어의 검색결과를 비교하여 수정된 각 검색어와 관련된 의미 해석을 평가합니다.
- 예를 들어, 각 의미론적 해석은 순위가 매겨지거나 검증될 수 있습니다.
- 모호한 원래 쿼리에 대해 서로 다른 의미 해석을 비교할 수 있으며, 비교를 기반으로 원래 검색 쿼리에 대한 의미 해석을 선택할 수 있습니다.
모호한 쿼리의 다른 버전은 서로 비교할 수 있습니다.
다시 작성할 수 있는 다른 버전을 얻으려면 원래 쿼리에서 검색이 수행됩니다.
그것들은 관련된 후보 의도를 나타내는 의미론적 해석이 결정될 수 있는지 알아보기 위해 검토될 수 있습니다.
결과 간의 유사성 정도를 비교할 수 있습니다.
모호한 쿼리를 처리하는 이 특허는 다음에서 찾을 수 있습니다.
검색어의 의미론적 해석 평가
발명가: Ashish Venugopal, Jakob D. Uszkoreit, John Blitzer, Edward Everett Anderson
양수인: Google LLC
미국 특허: 10,353,964
부여: 2019년 7월 16일
출원일: 2015년 3월 11일
추상적 인
본 개시는 검색 질의의 상이한 의미론적 해석을 평가하는 것에 관한 것이다. 하나의 예시적인 방법은 검색 엔진에 제출된 특정 검색 질의에 대한 검색 결과 세트를 획득하는 단계; 특정 검색 질의에 대한 의미론적 해석 세트를 획득하는 단계; 세트의 각각의 의미론적 해석에 대해 표준 검색 쿼리를 획득하는 단계; 특정 검색 질의 및 의미론적 해석을 위한 정규 검색 질의에 적어도 부분적으로 기초하여 수정된 검색 질의를 생성하는 단계; 의미 해석을 위해 수정된 검색 질의에 대한 검색 결과 세트를 획득하는 단계; 및 세트의 각각의 의미론적 해석에 대해, (i) 의미론적 해석을 위한 수정된 검색 질의의 검색 결과 세트와 (ii) 특정 검색 쿼리에 대한 검색 결과의 세트 사이의 유사도를 결정하는 단계를 포함한다.
모호한 쿼리 이면의 의도 식별
"검색 결과 품질을 향상시키기 위해 검색 엔진은 수신된 검색 쿼리를 해석하여 각 쿼리와 관련된 가능한 의도를 식별할 수 있습니다."라고 들었습니다. 이는 검색자가 "해리 포터는 얼마나 길어요?"와 같은 검색어를 입력할 때 가장 많이 찾는 항목을 의미합니다. 검색창에.
모호한 쿼리로 의도 결정의 어려움
모호한 쿼리와 관련하여 내가 쓴 특허에도 포함된 또 다른 예는 이 특허에서도 언급됩니다.
예를 들어, "워싱턴의 나이"를 인용하는 쿼리는 예를 들어 조지 워싱턴 대통령, 배우 덴젤 워싱턴, 워싱턴 주 또는 워싱턴 DC를 참조할 수 있습니다. 이러한 모호한 쿼리와 관련된 사용자 의도를 결정하는 것은 어려울 수 있습니다.

구글은 내가 조지 워싱턴에 가장 관심이 많다고 결정했다.
이 특허는 "특정 검색어에 대한 다양한 해석을 평가하는 기술"을 제공하는 것에 관한 것입니다.
모호한 쿼리의 의미론적 해석

이 특허의 이면에 있는 프로세스는 적어도 하나의 표준 쿼리와 관련된 의미론적 해석으로 시작합니다.
1. 이러한 의미론적 해석 각각에 대해 원래 검색 쿼리 및 관련 표준 쿼리를 기반으로 수정된 검색 쿼리가 생성됩니다.
예제 쿼리 "해리포터는 얼마나 길어요"에서 "해리포터"라는 용어는 모호하며 다음과 같은 하나 이상의 특정 주제를 나타낼 수 있습니다.
- 해리 포터 프랜차이즈의 7권 중 아무 책이나
- 책을 영화화한 모든 것
- 타기
- 테마 파크
- 오디오 북
- 만화
- 등.
이 쿼리는 Harry Potter 캐릭터 자체를 참조할 수도 있습니다.
검색자가 쿼리에서 참조하려는 주제에 따라 다른 해석이 적용될 수도 있고 여러 가지 다른 해석이 적용될 수도 있습니다.
- 책 – 검색자는 아마도 책의 단어나 페이지 수를 알고 싶어 할 것입니다.
- 영화 – 검색은 아마도 영화의 실행 시간을 알고 싶어할 것입니다.
- 가상의 인물 - 수색자는 자신의 키를 알고 싶어할 수 있습니다.
원래 모호한 쿼리: 해리 포터는 얼마입니까?
의미 해석: 책 해리 포터의 길이는 얼마입니까?
의미 해석: 영화 해리 포터의 길이는 얼마입니까?
의미 해석: 해리 포터 캐릭터의 키는 얼마입니까?
의미 해석: 해리 포터 캐릭터는 몇 살입니까?
2. 그런 다음 원래의 모호한 검색어와 수정된(해석) 검색어에 대한 검색 결과를 얻습니다.
3. 수정된 각 검색어의 검색 결과와 원본 검색어의 검색 결과를 비교하여 수정된 각 검색어와 관련된 의미 해석을 평가합니다.
4. 예를 들어, 각 의미론적 해석은 순위가 매겨지거나 검증될 수 있습니다. 이러한 방식으로 원래 검색 쿼리에 대한 다양한 의미론적 해석을 서로 비교할 수 있습니다. 경우에 따라 비교를 기반으로 원래 검색어에 대한 의미론적 해석을 선택할 수 있습니다.

특허의 공정을 따를 때의 이점
1. 검색 결과를 사용하여 다양한 의미론적 해석을 평가하면 다음과 같은 다른 데이터 소스를 볼 수 있습니다.
- 클릭연결 데이터
- 사용자별 데이터
- 검색 결과 생성 시 활용되는 기타
2. 쿼리에 대한 다양한 의미론적 해석을 평가함으로써 쿼리에 대한 사용자 의도가 예측될 수 있으며, 이에 따라 쿼리의 모호성이 식별된 검색 결과의 품질에 미치는 영향을 줄일 수 있습니다.
3. "관련 해석이 특정 쿼리에 대한 사용자 의도와 일치할 가능성"을 나타내는 의미론적 해석 각각에 대해 결정된 신뢰도 점수.
사용자에게 검색 결과를 반환할 때 의미론적 해석에 필요한 최소 신뢰도 점수를 나타내기 위해 신뢰도 임계값이 정의될 수도 있습니다. Google은 검색자에게 고품질 결과를 반환하는 데 관심이 있기 때문에 검색 상자에 모호하게 보일 수 있는 쿼리를 입력하고 공감할 만한 답변이 나쁘지 않은 경우에도 검색자에게 고품질 결과를 반환하는 데 관심이 있습니다. 특허에 따르면 이 신뢰도 점수는 높은 임계값으로 설정될 수 있습니다.
예를 들어, 신뢰도 임계값은 검색 결과를 반환할 때 특정 검색 쿼리에 대해 90 이상의 신뢰도 점수를 갖는 의미론적 해석이 고려되어야 함을 지정할 수 있습니다.
의미론적 해석에 대한 신뢰 점수는 의미론적 해석 중 어느 것이 특정 쿼리와 함께 갈 수 있는지를 결정하는 데 사용될 수 있습니다. 예를 들어, "해리 패터의 길이"는 페이지에 있는 해리 포터 책의 길이 또는 해리 포터 영화 중 하나의 키가 얼마나 길었는지 묻는 버전을 알려주기 위해 점수가 매겨질 수 있습니다. 그 책들 중 하나에 해리 포터가 몇 살인지.
정규 쿼리 및 모호한 쿼리
Google 문서에서 표준 쿼리를 참조하는 것을 본 기억은 이번이 두 번째입니다. 첫 번째는 Biperpedia: An Ontology for Search Applications에서 쿼리 로그에서 다른 쿼리 용어를 본 형식을 저장할 수 있다고 말하는 것처럼 보입니다(일반적인 철자 오류와 함께). 이 특허에서 언급된 표준 쿼리는 약간 다릅니다. 정규 쿼리가 무엇인지에 대한 다음과 같은 해석이 마음에 들었습니다.
표준 쿼리는 특정 의미 해석과 관련된 사용자 의도를 전달하는 쿼리일 수 있습니다.
이는 "원래의 특정 쿼리에서 수정된 검색 쿼리를 생성하는 데 사용되는 구조 또는 템플릿"일 수 있으며 "수정된 검색 쿼리를 생성하기 위해 특정 쿼리의 정보와 결합"될 수도 있습니다.
특허에서 수정된 쿼리를 제공하는 데 사용되는 표준 쿼리의 몇 가지 예가 제공됩니다.
예를 들어, 표준 쿼리는 "책은 몇 페이지입니까?"와 같은 불완전한 쿼리일 수 있습니다.
.”
표준 쿼리의 템플릿이 주어지면 수정된 쿼리가 어떻게 생성되는지 알 수 있습니다.
수정된 검색 쿼리는 특정 쿼리의 부분을 사용하여 표준 쿼리에서 생성될 수 있습니다. 예를 들어, 이전의 표준 쿼리와 "해리 포터는 얼마나 긴지"라는 특정 쿼리가 주어지면 "해리포터 책은 몇 페이지"라는 수정된 검색 쿼리가 생성될 수 있습니다.
수정에는 표준 쿼리와 일치하도록 원래 쿼리를 다시 작성하는 작업이 포함될 수 있습니다.
예를 들어, 주어진 쿼리 "How long is the book harry potter"는 "How long is the book is the book"이라는 표준 쿼리와 일치하도록 "how long is the harry potter book"으로 다시 형식을 지정할 수 있습니다.
.”
엔터티 및 모호한 쿼리 다시 작성
일부 구현에서, 의미론적 해석을 위한 수정된 검색 쿼리를 생성하는 것은 의미론적 해석을 위한 표준 검색 쿼리에 포함된 특정 엔티티를 식별하는 대체 하위 문자열로 특정 엔터티를 식별하는 특정 검색 쿼리에 포함된 부분 문자열을 교체하는 것을 포함합니다.
예를 들어, "해리포터는 얼마나 길어요"라는 특정 쿼리는 책의 페이지 수를 묻는 의미론적 해석을 가질 수 있습니다.
쿼리에 엔터티를 포함하는 것은 쿼리에 더 많은 확실성이 있는지 확인하는 방법인 것 같습니다. 이 특허는 원래 쿼리의 엔터티를 사용하는 것이 확실히 이 프로세스의 일부임을 알려줍니다.
이 의미론적 해석과 관련된 정식 쿼리는 "얼마나 오래
책." 따라서 특정 엔터티로 식별된 "해리 포터"를 사용하여 특정 검색 쿼리의 하위 문자열 "해리 포터"를 정규 검색 쿼리에서 파생된 하위 문자열 "해리 포터 북"으로 교체하여 수정된 검색 쿼리를 생성할 수 있습니다.
유사성을 사용하여 수정된 쿼리가 모호한 쿼리와 잘 맞는지 결정하기
이 결정을 내리는 데 사용된 유사성은 다음을 확인하기 위해 모호한 쿼리와 수정된 쿼리에 대한 검색 결과를 비교하는 것을 기반으로 할 수 있습니다.
1. 수정된 검색 쿼리 결과에서 특정 검색 쿼리와 관련된 특정 키워드의 발생 빈도 및 특정 검색 쿼리에 대한 검색 결과 내 빈도.
2. 유사도는 수정된 검색어 결과의 순서와 특정 검색어에 대한 검색 결과의 순서를 비교하여 결정합니다.
3. 다음과 같은 기타 데이터가 고려될 수 있습니다.
- 사용자 클릭률
- 사이트 트래픽 데이터
- 기타 데이터
테이크아웃
Google은 "해리 포터는 얼마나 됩니까?"와 같은 모호한 쿼리에 대해 다른 답변을 제공할 수 있습니다. 사람들이 다른 사람보다 선호하는 경향이 있는 결과를 확인합니다. 다른 결과보다 일부 결과를 표시하기로 한 결정은 수정된 쿼리의 초기 평가 및 이와 관련된 신뢰도 점수를 기반으로 할 수 있습니다. 그러나 누군가가 "해리 포터는 얼마나 길어요"라는 유형의 쿼리를 수행할 때 해리 포터의 키가 얼마나 되는지보다는 영화의 길이나 해리 포터 책 중 하나에 몇 페이지가 있는지 묻는 것일 가능성이 더 큽니다. 포터는 또는 해리 포터의 나이입니다.
Google이 모호한 쿼리 뒤에 숨겨진 의도를 이해하려고 시도하는 방법을 볼 수 있습니다. Google은 점심 시간에 "피자"를 검색하는 것과 같이 모호하다고 인식할 수 없는 검색어 이면의 의도도 이해하려고 시도할 수 있습니까? 구글은 피자의 이력이 아니라 슬라이스를 찾기 위해 가까운 곳을 검색하는 것으로 이해하고 있는 것 같다.

높은 자신감을 가지고 점심을 먹으려는 의도로 해석할 수 있습니다.
