Google이 검색결과와 이미지를 연결하는 방법

게시 됨: 2017-04-07

프레스 패스

검색 결과를 위해 이미지를 선택하는 방법

몇 년 전 Google의 일부 전 직원(최소한 한 명 이상은 복귀)이 Cuil이라는 이름으로 검색 엔진을 시작했습니다. 검색 결과와 함께 이미지를 표시하는 것으로 알려지게 되었고 이러한 이미지가 항상 잘 선택되거나 정확하지는 않았습니다. Cuil의 검색 결과에서 이미지에 대한 비판의 예를 보려면 이 블로그 게시물을 참조하세요: Cuil은 어떻게 처리합니까?

Google은 수년 동안 뉴스 결과 옆에 이미지를 표시해 왔습니다. 그들은 Cuil이 자신의 이미지에 대해 저지르는 실수를 어떻게 피했습니까? 이번 주에는 뉴스 결과에 표시되는 이미지를 더 정확하게 표시하기 위해 수행하는 작업에 대해 설명하는 특허가 Google에 부여되었습니다.

특허에 대한 설명 상단에 뉴스 결과와 함께 이미지를 표시하는 이유와 그렇게 할 때의 어려움 중 하나가 무엇인지 알려줍니다.

뉴스 문서의 경우 사용자는 뉴스 문서와 관련하여 이미지를 보는 것이 유용할 수 있습니다. 그러나 종종 뉴스 문서에는 뉴스 문서의 주제와 관련이 없는 이미지가 여러 개 포함됩니다. 이로 인해 뉴스 문서에 적합한 이미지를 자동으로 선택하기가 어렵습니다.

그들은 그들이 보여주는 새로운 결과에 정확하고 도움이 되는 이미지를 사용하려고 시도하는 접근 방식에 대한 요약을 제공합니다.

본 발명의 원리와 일치하는 일 양태에 따르면, 방법은 문서와 연관된 이미지를 식별하고, 이미지를 필터링하여 후보 이미지 세트를 생성하고, 후보 이미지와 연관된 캡션을 검출하고, 연관시킬 후보 이미지 중 하나를 선택하는 단계를 포함합니다. 감지된 캡션을 기반으로 문서와 함께

이 새로 부여된 특허는 다음과 같습니다.

뉴스 검색을 위한 이미지 선택
발명가: Hong Zhou, Srdjan Mitrovic, Krishna Bharat, Michael Schmitt, Michael Curtiss
양수인: Google Inc.
미국 특허 9,613,061
부여: 2017년 4월 4일
출원일: 2014년 5월 28일

추상적 인

시스템은 여러 개의 첫 번째 이미지를 포함하는 첫 번째 문서를 식별하고, 많은 두 번째 이미지를 포함하는 두 번째 문서를 식별하고, 첫 번째 문서와 두 번째 문서 간의 관계를 기반으로 클러스터를 형성합니다. 시스템은 첫 번째 이미지 중 하나와 연관된 첫 번째 캡션을 식별하고, 두 번째 이미지 중 하나와 연관된 두 번째 캡션을 식별하고, 첫 번째 캡션에 기반하여 클러스터에 대한 대표 이미지로서 두 번째 이미지 중 하나의 첫 번째 이미지 중 하나를 선택합니다. 또는 두 번째 캡션을 사용하고 대표 이미지를 클러스터와 연결합니다.

뉴스 크롤링 단위

이 특허는 뉴스 문서 크롤링에 주로 초점을 맞춘 뉴스 지향 Googlebot이 어떻게 작동할지 상상할 수 있는 약간 거짓말처럼 들리는 "뉴스 크롤링 단위"의 동작에 대해 알려줍니다. 뉴스 소스와 연관될 수 있는 URL로 시작하는 웹에서 집중적으로 크롤링할 수 있습니다. 뉴스 기사에 포함하기 위해 해당 페이지의 이미지를 캡처합니다.

뉴스 크롤링 유닛은 추출된 주소를 기반으로 이미지를 크롤링하고 이미지 및 이미지와 관련된 기타 정보를 저장할 수도 있습니다. 예를 들어, 뉴스 크롤링 단위는 이미지와 관련된 시간 정보 및 참조 횟수 정보를 얻을 수 있습니다. 시간 정보는 "스톡 이미지"(즉, 동일한 주제와 관련된 여러 뉴스 문서에 사용되는 이미지)를 식별하는 데 유용할 수 있습니다. 스톡 이미지는 좋은 후보 이미지가 될 수 있습니다. 참조 카운트 정보는 칼럼니스트의 이미지 또는 뉴스 소스 관련 아이콘과 같이 뉴스 문서의 주제와 직접적인 관련이 없지만 동일한 호스트의 여러 뉴스 문서에 의해 링크된 이미지를 식별하는 데 유용할 수 있습니다. 참조 횟수가 많은 이미지는 좋은 후보 이미지가 아닌 것으로 판단될 수 있습니다.

따라서 뉴스 기사와 함께 표시되는 이미지를 Google에서 선택하는 방법에 대한 아이디어를 시작할 수 있습니다. 이 특허는 이상한 모양과 형식의 이미지 또는 해당 원본 뉴스 문서의 주제와 관련이 없는 이미지를 포함하여 검색 결과에 표시하기에 적합하지 않을 수 있는 이미지에서 좋은 후보 이미지를 정렬하는 방법을 알려줍니다. 광고 또는 칼럼니스트와 관련된 이미지와 같이 가깝습니다.

이 특허는 또한 특정 치수 크기 또는 종횡비(너무 크거나 너무 좁아질 수 있음) 미만의 이미지도 후보 이미지(뉴스 결과에 표시할 후보)에서 제외될 수 있다고 알려줍니다.

또한 링크된 이미지는 광고인 경우가 많기 때문에 링크가 포함된 이미지는 후보에서 제외될 수 있음을 알려드립니다.

뉴스 소스가 호스팅되는 곳이 아닌 다른 곳에서 호스팅되는 이미지도 콘텐츠 전송 네트워크에서 제공되지 않는 한 광고일 수 있으므로 후보 이미지에서 제외될 수 있습니다.

이미지 캡션

이미지가 크롤링되면 이미지의 캡션에 대한 정보가 이미지에 대한 좋은 설명일 수 있고 이미지가 소스 뉴스 문서의 주제와 관련이 있는지 여부를 알 수 있기 때문에 감지될 수 있습니다.

테이블 셀과 같이 HTML 태그 내에서 이미지와 텍스트를 함께 캡처하면 해당 텍스트가 이미지와 연결될 수 있습니다. 마찬가지로 Alt 텍스트는 이미지와 연결되어 뉴스 결과로 사용될 때 이미지의 대체 텍스트로 사용될 수 있습니다.

특허에 따르면 이미지에 대한 대체 텍스트의 일부 테스트는 이미지 작성자의 이름을 식별할 수 있는 단어 또는 주제와 관련이 없는 단어와 같은 "독" 단어가 포함되어 있는지 확인하기 위해 분석될 수 있습니다. 뉴스 문서. 대체 텍스트에 독어가 포함되어 있지 않으면 이미지의 캡션으로 사용될 수 있습니다.

이미지가 텍스트가 있는 테이블 셀과 같은 HTML 컨테이너에 있는 경우 해당 텍스트는 이미지의 캡션(또는 인접 셀의 텍스트)으로 사용될 수 있습니다.

HTML 컨테이너를 공유하는 해당 텍스트가 특정 임계값을 초과하거나 너무 크면 뉴스 문서의 일부일 수 있기 때문에 캡션으로 간주되지 않을 수 있습니다.

이미지 점수

이 특허는 후보 이미지 각각에 대한 이미지 점수가 다음과 같은 특정 요소를 기반으로 생성될 수 있음을 알려줍니다.

  • 이미지 크기
  • 뉴스 문서 제목까지의 거리
  • 이미지 캡션과 뉴스 문서 중심 간의 겹침

추가 필터

우리는 또한 뉴스 소스의 이미지가 뉴스 결과에서 해당 뉴스 기사를 동반해야 하는지 여부를 결정하기 위해 다른 필터를 사용할 수 있다고 들었습니다. 여기에는 다음이 포함될 수 있습니다.

  • 텍스트가 포함된 이미지
  • 사진이 아닌 클립 아트처럼 보이는 이미지
  • 모두 같은 색상의 이미지
  • 기타 기준

클러스터 수준 이미지

새로운 주제는 종종 해당 주제에 대한 문서 클러스터로 나뉩니다.

특허에 따르면 이미지는 클러스터 내에서 주제와 연관될 수 있으며 주제 클러스터 내에서 가장 높은 순위의 이미지는 해당 클러스터 내의 소스 뉴스 문서의 순위에 따라 결정될 수 있습니다. 클러스터, "해당 이미지가 클러스터를 대표할 가능성이 더 높습니다."

또한 이미지에 대한 캡션의 단어를 볼 수 있으며 이미지 캡션의 단어가 클러스터의 문서 본문에 나타나는 횟수가 많을수록 이미지가 클러스터의 주제입니다.

추가 적용

나는 특허의 끝 부분에 있는 하나 이상의 문장이 예상보다 더 많은 의미를 가질 수 있는 일부 특허를 보았습니다. 이 특허에는 다음과 같은 문장이 있습니다.

또한, 뉴스 검색의 맥락에서 설명되지만, 본 발명의 원리와 일치하는 시스템 및 방법은 제품 검색과 같은 비뉴스 검색에 적용될 수 있습니다.

Google이 뉴스 검색 이외의 검색 결과에 연관 이미지를 적용하기 위해 특허에 설명된 방법 중 일부를 사용하는 방법에 대해 생각하는 것도 나쁘지 않을 것 같습니다. Cuil과 비슷하지만 아마도 Cuil보다 나을 것입니다.