카페인: Google의 인덱서
게시 됨: 2017-03-24
Google 검색 엔진 업데이트는 종종 미스터리한 이벤트이지만 가끔 Google 특허에서 작동 방식에 대한 통찰력을 제공하는 정보를 접하게 됩니다. Google을 이전보다 훨씬 빠르게 만들기 위한 Google 업데이트 중 하나는 2010년 Google에서 공식적으로 발표한 Google의 새로운 검색 색인인 Caffeine 업데이트입니다.
웹 페이지의 콘텐츠를 변경하는 경우 해당 변경 사항이 Google 색인에 반영되는 데 얼마나 걸립니까? 새 페이지나 블로그 게시물을 게시하는 경우 쿼리할 수 있는 항목으로 Google 색인의 일부가 되는 시기는 언제입니까? 웹에 추가된 콘텐츠가 검색 가능한 것이 되기까지는 시간이 좀 걸렸습니다. Google은 색인을 업데이트하고 웹에 추가된 많은 데이터는 많은 사람들이 Google Dance라고 부르는 움직임에서 쿼리할 수 있게 되었습니다. 그런 다음 Google은 검색 결과가 더 빠르게 변경된다는 접근 방식을 내놓았고 Google의 전 웹 스팸 책임자인 Matt Cuttt는 이 비디오에서 Google 검색 결과에서 발생하는 "Flux"에 대해 설명했습니다.
Google은 웹에서 콘텐츠 색인 생성 속도를 높이기 위한 업데이트를 발표했습니다. 이러한 업데이트 중 하나를 Big Daddy 업데이트라고 합니다. 2009년에 일어난 또 다른 사건은 카페인 업데이트라고 합니다. 이 신문 기사에서 약간 다른 모습을 볼 수 있습니다. Google Caffeine: What it really is
최근에 저는 Google이 검색 색인을 훨씬 더 빠르게 만들 수 있는 방법을 보여주는 특허를 발견하고 Google의 카페인 업데이트가 수년 동안 웹 콘텐츠 색인 방식에 대한 많은 변경에 대한 비난을 받은 후 공유하기로 결정했습니다. 이 특허 공유 Google이 웹에서 페이지를 인덱싱하는 방법에 대해 사람들이 조금 더 이해할 수 있습니다. 같은 날 관련 특허 3건이 출원됐다. 그것들은 카페인이 어떻게 작용하는지에 대한 흥미로운 시각을 제공합니다. 그들이 하는 일은 단순히 다음과 같습니다.
개시된 실시예는 일반적으로 데이터 처리 시스템 및 방법, 특히 문서가 업데이트될 때부터 문서가 쿼리에 이용 가능할 때까지의 짧은 대기 시간을 지원하고 쿼리 스레드와 저장소 업데이트 스레드 사이의 동기화를 거의 요구하지 않는 문서 저장소에 관한 것입니다. .
따라서 웹에 무언가를 게시한 시점부터 Google 색인에 추가될 때까지 걸리는 시간이 궁금하다면 해당 특허에 설명된 동기화에 따라 다릅니다.
Google은 웹에서 색인을 생성하는 각 문서의 모든 단어와 해당 단어의 위치에 대한 포인터를 포함하는 역색인을 검색합니다. 이 특허는 신선한 결과를 제공하는 데 있어 "장애물"이라고 하는 것을 지적합니다. 여기에는 다음이 포함됩니다.
(1) 문서 저장소가 업데이트될 때마다 문서 색인을 다시 작성하는 것과 관련된 비용 또는 오버헤드. 예를 들어, 상당한 오버헤드는 종종 새 문서 및 업데이트된 문서에서 작은 색인을 작성하고 작은 색인을 기본 색인과 주기적으로 병합하는 것과 관련되며, 이러한 시스템은 일반적으로 문서 업데이트와 저장소 색인에서 해당 문서의 가용성 사이에 긴 대기 시간을 겪습니다.
(2) 큰 오버헤드를 발생시키지 않으면서 저장소를 업데이트하는 동안 문서 저장소에 대한 쿼리를 지속적으로 처리하는 어려움. 이 두 번째 장애물의 한 측면은 쿼리를 실행하는 스레드와 문서 저장소를 데이터 저장소의 주요 데이터 구조로 업데이트하는 스레드를 모두 동기화해야 한다는 것입니다. 쿼리 스레드와 저장소 업데이트 스레드를 동기화해야 하는 필요성은 문서 업데이트가 자주 수행되는 경우 문서 저장소의 효율적인 운영에 상당한 장애물이 될 수 있으며, 이는 다시 문서 저장소의 최신성을 유지하는 데 장애가 됩니다.
특허에 액세스하고 전체 내용을 읽으려면 여기에 링크가 있습니다.
문서 저장소의 문서를 업데이트하고 무효화된 문서에서 저장 공간을 복구하는 문서 트레드밀링 시스템 및 방법
발명가: Michael Burrows와 Jeffrey A. Dean
양수인: Google Inc.
미국 특허 7,617,226
부여: 2009년 11월 10일
출원일: 2006년 2월 10일
추상적 인
토큰 공간 저장소는 문서를 토큰 시퀀스로 저장합니다. 토큰 공간 저장소와 토큰 공간 저장소의 역 인덱스는 첫 번째 끝과 두 번째 끝이 있는 데이터 구조를 사용하며 두 번째 끝에서는 삽입을 허용하고 프런트 끝에서는 삭제할 수 있습니다. 토큰스페이스 저장소의 문서는 업데이트된 버전을 두 번째 끝의 저장소에 삽입하고 이전 버전을 무효화하여 업데이트됩니다. 무효화된 문서는 즉시 삭제되지 않습니다. 나중에 가비지 수집을 위해 가비지 수집 목록에서 식별됩니다. 토큰스페이스 리포지토리는 무효화된 문서를 프런트 엔드로 이동하도록 조정되며, 이 시점에서 문서가 삭제되고 저장 공간이 복구될 수 있습니다.
러닝머신
이 특허를 읽었을 때 내 주의를 끈 단어 중 하나는 Google 색인에서 데이터가 처리되는 방식을 설명하는 데 사용된 "treadmilling"이었습니다.
삭제는 프런트 엔드의 데이터에만 수행할 수 있으므로 주기적으로 셀의 데이터가 "트레드밀"됩니다. 즉, 프론트 엔드의 유효한 데이터는 백 엔드로 복사되고 프론트 엔드의 원래 유효 데이터는 삭제됩니다. 프런트 엔드의 유효한 데이터가 백 엔드로 이동함에 따라 프런트 엔드와 백 엔드 사이의 셀에 있는 데이터는 논리적으로 프런트 엔드로 이동되며 필요한 경우 삭제할 수 있습니다. 따라서 러닝머신은 더 이상 유효하지 않은 데이터(때로는 부실 데이터라고도 함)가 차지하는 메모리 공간의 복구를 돕습니다. 트레드밀링에 관한 추가 정보는 도 1 내지 도 3과 관련하여 아래에서 설명된다. 13-15.
특허의 나머지 부분은 이 인덱싱 시스템의 작동 방식에 대한 자세한 내용을 제공하며, 읽은 후 카페인에 대해 이야기하고 있는지, 그리고 Google에서 카페인을 계속 사용하고 있는지 궁금했습니다. 지난 며칠 전에 Google 대변인 Gary Illyes는 Google의 인덱서 Caffeine이 여전히 중요하고 Google에서 여전히 사용하고 있음을 나타내는 방식으로 언급하는 몇 가지 비밀 트윗을 만들었습니다.


