SMX West 2016, Google 랭킹 엔지니어 Paul Haahr와의 Q&A

게시 됨: 2021-10-08

최근 SEO 업계는 Google 직원으로부터 보기 드문 투명성과 통찰력을 받았습니다. 특히 순위 엔지니어링 부서의 구성원: Google 알고리즘에 직접 기여하는 사람.

지난 14년 동안 Google에서 소프트웨어 엔지니어로 일해 온 Paul Haahr는 3월에 SMX West에서 순위 엔지니어로서의 관점에서 Google이 어떻게 작동하는지에 대한 프레젠테이션을 했습니다. 몇 가지 적용 범위:

전체 비디오는 여기에 있습니다.
여기 내 범위와 생각.
Rae Hoffman의 보도는 여기(댓글을 놓치지 마세요!).
Richard Baxter의 프레젠테이션 전문.

이 게시물은 Google의 웹마스터 트렌드 분석가인 Gary Iylles가 합류한 Paul의 프레젠테이션 후 Danny Sullivan이 이끄는 Q&A를 다룰 것입니다. 아래의 전체 비디오:

Q&A에는 16개의 질문이 있었습니다. 한 번에 하나씩 가져 가자.

참고: 나는 내 자신의 이해를 바탕으로 답변을 바꾸어 말할 것입니다. 전체 답변을 보고 싶으시다면 영상을 시청하는 것을 추천합니다. 각 질문에는 Danny가 질문하는 지점까지 비디오가 포함되어 있습니다.

1. 샤드는 여러 곳에서 전체 인덱스의 일부입니까?

인덱스는 모든 샤드의 합계입니다.

Google은 초대형 머신으로 구성된 대규모 네트워크를 보유하고 있으며 이러한 초대형 머신을 채우기 위해 샤드 크기를 선택합니다. 샤드가 규모의 문제를 처리하는 Google의 방법인 것처럼 들립니다. 따라서 인덱스의 크기를 관리할 수 있습니다.

2. RankBrain은 이 모든 것에 어떻게 적합합니까?

RankBrain은 알고리즘에서 신호의 특정 하위 집합을 제공합니다(어떤 신호인지 불분명).
RankBrain은 신호를 결합하고 문서를 이해하는 방법에 대한 자체 아이디어가 있는 기계 학습(딥 러닝? Paul이 스스로 딥 러닝으로 수정) 시스템입니다.
Google은 RankBrain이 작동하는 방식을 이해하지만(많은 노력 끝에) 정확히 무엇을 하는지 이해하지 못합니다.
RankBrain은 Google이 딥 러닝에 대해 게시한 것의 대부분을 사용합니다.
RankBrain이 수행하는 작업의 한 계층은 word2vec 및 단어 임베딩입니다.
RankBrain은 쿼리 수명의 늦은 사후 검색 단계 후에 시작됩니다. (바울은 이것을 "상자"라고 부릅니다).

3. RankBrain은 페이지의 권한을 어떻게 알 수 있나요? 품질을 어떻게 알 수 있습니까?

RankBrain에는 이 기능을 개선하기 위한 강력한 교육 데이터가 있습니다. 쿼리 및 웹 페이지 외에도 신호를 봅니다.

나에게는 RankBrain이 페이지의 권위나 품질을 결정할 필요가 없는 것처럼 들립니다. 이미 그 정보를 제공하고 있습니다.

4. 순위 알고리즘 개선을 테스트할 때 Google은 어떤 전환 목표를 설정합니까? 모든 업데이트가 측정되는 일관된 목표가 있습니까?

Google에는 기본적으로 사람들이 결과의 두 번째 페이지를 클릭한 빈도를 측정하는 "Next Page Rate" 라는 측정항목이 있었습니다. 첫 페이지라는 개념은 그다지 좋은 결과를 얻지 못했습니다. 그러나 이것은 쉽게 게임/조작될 수 있습니다.

특히 공백은 사람들이 검색의 두 번째 페이지를 클릭할 가능성을 줄입니다.

[영상 속 컷씬]

참고: 나중에 8시 50분에 비슷한 질문이 나옵니다. 비디오와 답변을 보려면 질문 #8까지 아래로 스크롤하십시오.

5. 가장 먼저 해야 할 일 중 하나는 쿼리에 엔터티가 포함되어 있는지 확인하는 것입니다. 그게 5년 전에 한 일입니까?

지식 정보 및 지식 패널과 같은 시기에 시작되었습니다. 이러한 프로세스의 핵심입니다.

2011년 지식 정보를 출시하기 전에는 Google이 하지 않았던 일입니다.

누군가가 어떤 Google 앱에 로그인되어있는 경우, 당신은 당신이 수집 한 정보에 의해 구별합니까 (6)? Google Now와 Google Chrome이 검색에 영향을 미칠 수 있나요?

진짜 질문은 로그인했는지 여부입니다.

로그인한 경우 Google은 검색 개인화를 제공합니다. Google은 관심사와 Google Now 카드에 표시되는 내용을 기반으로 사용자에게 일관된 검색 경험을 제공하고자 합니다.

로그인되어 있고 검색 개인화를 끄지 않은 한 검색 경험에 개인화 기능이 있습니다.

책갈피보다 검색이 모든 기기에서 팔로우할 가능성이 더 큽니다.

7. Google은 하루 중 다른 시간에 동일한 쿼리에 대해 다른 결과를 제공합니까? 지역 지도는 영업 시간에 따라 변경되는 것 같습니다.

Paul도 Gary도 확신할 수 없었지만 둘 다 영업 시간이 쿼리에 영향을 미치지 않을 것이라고 생각하는 것 같았습니다.

Google은 비즈니스가 문을 닫았을 경우 영업 시간(및 영업 시간)을 표시하도록 하겠지만, 검색 결과에 지도가 표시되는지 여부에 시간이 영향을 미칠 것이라고는 생각하지 않는 것 같습니다.

비즈니스가 문을 닫았거나 거의 문을 닫았다고 해서 검색자가 실제 위치에 관심이 없다는 의미는 아닙니다.

8. Google은 사람이 평가한 실험에서 긍정적 또는 부정적 변화를 어떻게 결정합니까? 쿼리별 승자/패자 보고서가 있습니까?

Google에는 관련된 모든 쿼리가 포함된 다양한 측정항목(실험에 따라 다름)에 따라 실험이 어떻게 수행되었는지 각 실험에 대한 요약 보고서가 있습니다.

승패에 대한 분류가 있습니다. 앞서 언급한 예(지도를 표시하는 비료 쿼리)에서는 승리로 분류되었습니다. 인간은 지표와 결과를 검토합니다. 그러나 이 경우 Paul은 자신을 승리로 보고된 좋지 않은 결과를 포착했다고 언급했습니다.

Paul은 인간 평가자가 전반적으로 훌륭하지만 실수를 할 수 있다는 점을 지적합니다. 특히, 평가자는 기능이 가치를 추가하지 않더라도 특정 기능에 대해 흥분합니다.

9. 팬더와 펭귄에게 무슨 일이?

폴은 답이 없습니다. 그는 Panda와 Penguin이 모두 득점 및 검색 "상자"에 고려된다고 말했습니다.

Danny는 지난 6개월 동안 Penguin이 곧 출시될 것이라고 반복해서 말한 것으로 악명 높은 Gary에게 초점을 돌립니다. 실제로 Gary는 펭귄이 새해(2016년 1월) 전에 출시될 것이라고 말했습니다.

분명히, Gary의 예측은 실현되지 않았습니다.

Gary는 펭귄이 출시될 시간을 보고하는 것을 포기했다고 보고합니다. 그는 엔지니어들이 구체적으로 작업하고 있다는 것을 알고 있지만 세 번 틀리고 나면 날짜나 기간을 말할 의향이 없습니다.

Paul은 새로운 순위 신호 및 알고리즘을 시작하는 긴 반복 주기를 다시 언급합니다.

10: 2년이 걸린 출시에 대해 말씀하셨습니다. 펭귄이었나?

Paul이 논의한 2년 출시는 펭귄이 아닙니다.

출시는 반 순위 반 기능 출시였습니다. SERP의 절반 이상을 차지하는 맞춤법 수정을 시도한 첫 번째 시도였으며, "당신을 의미했나요?" 기능 대신 맞춤법 오류에 대한 결과를 보여줍니다.

해당 기능의 첫 번째 출시 반복에는 상당한 재작성이 필요했습니다(아마도 알고리즘에 맞추기 위해).

11: 당신은 주어진 저자의 전문 지식을 언급합니다. 주제에 대한 저자 권한을 어떻게 식별하고 추적합니까?

Paul은 여기서 자세히 설명할 수 없습니다. 그러나 실험에서 인간 평가자는 자신이 보는 페이지에 대해 수동으로 이 작업을 수행해야 합니다 . Google은 자체 측정항목을 평가자가 찾은 항목과 비교하여 자체 측정항목을 검증(또는 무효화)합니다.

12: 저자 권위가 직간접적인 순위 요인으로 사용됩니까?

간단한 대답은 없습니다. Paul은 예 또는 아니오를 말할 수 없습니다. 질문이 의미하는 것보다 더 복잡합니다.

13: rel=author로 계속 귀찮게 해야 합니까?

Gary는 rel=author 태그 사용을 계속 검토하는 팀이 적어도 하나는 있다고 말합니다.

Gary는 새 페이지에 대한 태그를 만드는 것을 권장하지 않지만 이전 페이지에서 rel=author 태그를 가져오는 것도 권장하지 않습니다. 태그는 아무 것도 해치지 않으며 미래에 무언가에 사용될 수 있습니다.

14: 품질 평가자가 브랜드 친숙도 편향을 갖지 않도록 하려면 어떻게 해야 합니까?

인간 평가자는 실험 전에 조사를 요청하지만 Paul은 종종 편견이 있음을 인정합니다.

Paul은 그러한 편향을 상쇄하기 위한 메트릭이 있으며 이러한 메트릭은 특히 품질 신호에 없다고 말합니다.

흥미롭게도 Paul은 "우리가 실제로 보고 있는 모든 지표를 살펴보기 시작하지 않았습니다 . " 라고 무심코 말합니다 .

따라서 실험 내에서 검토되는 관련성 및 품질을 넘어선 많은 측정항목이 있음을 의미합니다.

Paul은 "평가자가 철저한 작업을 수행하기 때문에 품질 평가를 받는 소규모 사이트가 많이 있습니다. 그들은 이것을 잘 파악하는 것 같습니다."라고 말합니다.

15: 클릭률(CTR)이 순위 신호입니까?

Paul은 CTR이 개인화뿐만 아니라 실험에서도 사용된다고 확인했습니다.

그러나 이 지표는 어떤 상황에서도 사용하기 어렵습니다.

Gary는 통제된 그룹이 있어도 참여를 올바르게 해석하기 어렵다고 말합니다.

Paul은 실제 측정항목을 오도하는 많은 실험이 수행되었다는 데 동의합니다. 그가 인용한 예는 스니펫과 질문 #4에서 언급한 "Next Page Rate"입니다.

Paul은 또한 검색 결과에서 결과 #2와 #4를 교환한 장기 실행 실험을 인용합니다. 무작위로 추출되었으며 0.02%의 사용자에게만 해당됩니다. 결과? 더 많은 사람들이 #1 결과를 클릭했습니다. 바울은 이렇게 설명합니다.

"그들은 #1을 봅니다--그들은 그들이 그것을 좋아하는지 아닌지를 모릅니다-- 그들은 #2보다 훨씬 더 나쁜 두 가지를 봅니다. 그들은 #4에 있어야 하는 결과가 있었고 실제로 #2는 너무 나빠서 #1을 클릭했습니다."
— SMX West 2016의 Paul Haahr가 Google의 실시간 실험을 통해 틀에 얽매이지 않는 클릭 통계를 제공하는 방법을 설명합니다.

Paul이 인용한 또 다른 흥미로운 편견은 게재순위 10위가 8위와 9위를 합친 것보다 "훨씬 더 많은 클릭"을 얻는다는 것입니다. 왜요? 다음 페이지 이전의 마지막 결과이고 아무도 다음 페이지를 클릭하고 싶어하지 않기 때문입니다.

그럼에도 불구하고 #10은 #7보다 실적이 좋지 않습니다.

이 모든 것의 요점은? CTR은 사용하기 매우 어려운 신호이며 종종 이상한 편견과 예측할 수 없는 인간 행동의 결과입니다 .

16: 지금 무엇을 읽고 있습니까?

Paul은 "저널리즘은 많고 책은 거의 없습니다."라고 읽습니다. 그는 또한 샌프란시스코와 마운틴뷰를 오가는 출퇴근길에 오디오북을 많이 듣습니다.

바울은 다음과 같이 언급합니다.

Garth Risk Hallberg의 불타는 도시
그리고 Sinclair Lewis의 It Can't Happen Here .

...그리고 그것은 포장입니다!

질문? 코멘트? 생각? 아래에 남겨주세요!