Cum ar putea Google Harta interogări de imagini

Publicat: 2020-01-14

Cartografierea interogărilor de imagini la Google

Mulți oameni au telefoane cu camere în ele. Căutarea cu fotografii pare că ar deveni mai populară. Un brevet recent de la Google se referă la căutarea folosind imagini, acordat în noiembrie anul trecut.

Am salvat brevetul despre care să scriu pentru că am scris despre alte abordări de la Google care implică căutarea de imagini. Google a încercat să înțeleagă mai bine ce ar putea conține imaginile.

Am scris anul trecut despre Google că a adăugat categorii semantice cu ontologii la rezultatele căutării de imagini. Acea postare a fost Google Image Search Labels Becoming More Semantic?

Imaginați-vă surpriza mea când am căutat [jaguar], așteptându-mă să văd niște imagini în rezultatele căutării cu pisici precum Google obișnuia să arate în rezultatele Căutării Universale. Obișnuiau să amestece rezultatele pe care le-au afișat sau să includă imagini, știri, rezultate locale, videoclipuri și web pentru o interogare. Rezultatele pentru [jaguar] au inclus pisici și mașini, arătând deasupra lor categorii legate de o căutare [jaguar] și o ontologie legată de acea căutare:

Rezultatele interogării de imagini pentru Jaguar

Conform acestui nou brevet, cineva ar putea căuta folosind o imagine - dintr-o fotografie sau pe computerul său.

Google a lansat o aplicație despre căutarea fotografiilor – Google Lens.

Google Lens a recunoscut că pasărea din această fotografie pe care am făcut-o săptămâna trecută este un șoim:

Google Lens recunoaște o imagine Hawk

Mi-a permis să selectez un obiect din fotografia mea pentru a încerca să îl identific.

Acest nou brevet nu menționează Google Lens. Am scris o postare în trecut despre un brevet despre Google Goggles și despre îmbunătățirile care s-ar putea întâmpla cu acea aplicație în Noile funcții de căutare vizuală pentru fotografii de la Google. Google Goggles a fost închis ca aplicație. Din fericire. se pare că Google Lens are acum multe dintre aceleași caracteristici, inclusiv focalizarea pe un obiect inclus într-o imagine (cum am făcut-o în exemplul meu cu Hawk.)

Ca răspuns la o căutare de imagini de interogare, un motor de căutare poate adnota o imagine cu etichete de imagine (etichete de imagine de interogare care etichetează caracteristicile din imaginea de interogare.)

Dacă caut cu o imagine a mea, Google recunoaște imaginea mea (sau citește numele fișierului imaginii și o ia de acolo.):

etichetă de imagine adnotată

Google ne spune cum poate fi etichetată o imagine în timpul unei căutări de imagini:

Etichetele imaginii de interogare etichetează caracteristici cu granulație grosieră ale imaginii de interogare și, în unele cazuri, caracteristici cu granulație fină ale imaginii de interogare. Pe baza etichetelor imaginilor de interogare, sistemul identifică una sau mai multe entități asociate cu etichetele imaginii de interogare, de exemplu, persoane, locuri, rețele de televiziune sau cluburi sportive și identifică una sau mai multe interogări de căutare candidat folosind una sau mai multe entități identificate. Sistemul folosește entitățile identificate și etichetele de imagine de interogare pentru a influența scorul interogărilor de căutare candidate către cele care sunt relevante pentru utilizator, indiferent dacă imaginea de interogare este etichetată cu etichete cu granulație fină sau nu. Sistemul oferă una sau mai multe interogări de căutare reprezentative relevante pentru rezultate.

(Adăugat la 16.01.2020 – O altă postare despre un brevet recent de la Google despre etichetele pe care le pune pe imagini este Cum Google poate adnota imagini pentru a îmbunătăți rezultatele căutării

Brevetul ne spune despre modul în care pot fi încorporate „aspectele inovatoare” care includ acțiunile:

  • Primirea unei imagini de interogare
  • Se primesc una sau mai multe entități asociate cu imaginea de interogare
  • Identificarea, pentru entități, a uneia sau mai multor interogări de căutare candidate pre-asociate cu entitățile
  • Generarea unui scor de relevanță respectiv pentru fiecare interogări de căutare de candidat
  • Selectarea, ca interogări de căutare reprezentative pentru imagini de interogare, interogări de căutare candidați pe baza scorurilor de relevanță respective
  • Furnizarea unei interogări de căutare reprezentative ca răspuns la primirea imaginii de interogare

Scoruri de relevanță pentru entitățile din imagini

Deci, cum se calculează acele scoruri de relevanță pentru entități?

Descrierea brevetului oferă detalii despre un astfel de scor:

Un punctaj de relevanță respectiv pentru fiecare dintre interogările de căutare a candidatului implică:

  1. Determinarea dacă contextul imaginii de interogare se potrivește cu interogarea de căutare candidată
  2. Generarea unui scor de relevanță respectiv pentru interogarea de căutare a candidatului

„Determinarea dacă contextul imaginii de interogare se potrivește cu interogarea de căutare candidată” înseamnă dacă o imagine are un loc asociat cu potrivirea interogării de căutare (facerea de fotografii ale clădirilor sau statuilor în locurile pentru care sunt cunoscute.)

Această determinare poate, de asemenea, să însemne primirea unei interogări în limbaj natural și generarea unui scor de relevanță respectiv pentru fiecare dintre interogările de căutare candidat, bazat cel puțin pe interogarea în limbaj natural primit.

Cum se face asta?

Pentru fiecare dintre interogările de căutare a candidatului:

  • Generarea unei pagini cu rezultatele căutării utilizând interogarea de căutare a candidatului
  • Analizarea paginii cu rezultatele căutării generate pentru a determina o măsură care să indice cât de interesantă și utilă este pagina cu rezultatele căutării
  • Pe baza măsurii determinate, generarea unui scor de relevanță respectiv pentru interogarea de căutare a candidatului

În unele cazuri, generarea unui scor de relevanță respectiv pentru fiecare dintre interogările de căutare a candidatului cuprinde:

  • Determinarea unei popularități a interogării de căutare a candidatului
  • Pe baza popularității determinate, generarea unui scor de relevanță respectiv pentru interogarea de căutare a candidatului

Scoruri de etichetă de interogare de imagine

În alte cazuri, primirea uneia sau mai multor entități care sunt asociate cu imaginea de interogare cuprinde:

  • Obținerea uneia sau mai multor etichete de imagine de interogare
  • Identificarea, pentru una sau mai multe dintre etichetele de imagine de interogare, una sau mai multe entități care sunt pre-asociate cu una sau mai multe etichete de imagine de interogare

Brevetul ne vorbește despre câteva tipuri diferite de etichete de imagine:

Una sau mai multe etichete de imagine de interogare cuprind etichete de imagine cu granulație fină sau pot cuprinde etichete de imagine cu granulație grosieră.

Procesul din spatele brevetului poate implica, de asemenea, generarea unui scor de etichetă respectiv pentru fiecare dintre etichetele imaginii de interogare.

În unele implementări, un scor de etichetă respectiv pentru o etichetă de imagine de interogare se bazează cel puțin pe o actualitate a etichetei de imagine de interogare.

Un scor de etichetă respectiv pentru o etichetă de imagine de interogare se poate baza cel puțin pe cât de specifică este eticheta.

Un scor de etichetă respectiv pentru o etichetă de imagine de interogare ar putea fi, de asemenea, bazat cel puțin pe fiabilitatea unui backend de la care este obținută eticheta de imagine de interogare și pe un scor de încredere calibrat pentru backend.

Selectarea unei anumite interogări de căutare a unui candidat pe baza cel puțin pe scorurile interogării candidatului și pe scorurile etichetei cuprinde:

  • Determinarea unui scor agregat între fiecare scor de etichetă și scorul de interogare asociat candidatului
  • Clasificarea punctajelor agregate determinate
  • Selectarea unei anumite interogări de căutare a unui candidat care corespunde unui scor cel mai înalt clasat

O selecție a unei anumite interogări de căutare a unui candidat se poate baza cel puțin pe scorurile la interogarea candidatului în urma unui proces de:

  • Clasificarea scorurilor de relevanță pentru interogările de căutare a candidaților
  • Selectarea unei anumite interogări de căutare a unui candidat care corespunde unui scor cel mai înalt clasat

Brevetul din spatele mapării imaginilor pentru a căuta interogări poate fi găsit la:

Maparea imaginilor pentru interogări de căutare
Inventatori: Matthew Sharifi, David Petrou și Abhanshu Sharma
Cesionar: Google LLC
Brevet SUA: 10.489.410
Acordat: 26 noiembrie 2019
Depus: 18 aprilie 2016

Abstract

Metode, sisteme și aparate pentru primirea unei imagini de interogare, primirea uneia sau mai multor entități care sunt asociate cu imaginea de interogare, identificarea, pentru una sau mai multe dintre entități, a uneia sau mai multor interogări de căutare candidate care sunt pre-asociate cu una sau mai multe entități. mai multe entități, generând un scor de relevanță respectiv pentru fiecare dintre interogările de căutare candidate, selectând, ca interogare de căutare reprezentativă pentru imaginea interogării, o anumită interogare de căutare candidat bazată cel puțin pe scorurile de relevanță respective generate și furnizând interogarea de căutare reprezentativă pentru ieșire ca răspuns la primirea imaginii de interogare.

Această specificație descrie un sistem pentru generarea de interogări de căutare text folosind interogări bazate pe imagini (o căutare cu o fotografie).

Acest sistem de căutare combină un set de rezultate de recunoaștere vizuală pentru interogarea pe bază de imagine primită cu jurnalele de interogare de căutare și atributele de interogare de căutare cunoscute pentru a genera interogări de căutare relevante în limbaj natural pentru interogarea de căutare bazată pe imagine de intrare.

Interogările de căutare candidați în limbaj natural sunt părtinitoare către interogări de căutare care:

  1. Potriviți intenția utilizatorului
  2. Generați pagini interesante sau relevante cu rezultatele căutării
  3. Sau sunt determinate a fi interogări de căutare populare

Interogări de imagine combinate cu interogări în limbaj natural

În unele cazuri, un sistem de căutare poate primi atât o interogare de căutare bazată pe imagini, cât și o interogare în limbaj natural (text care ar fi fost rostit și derivat folosind tehnologia de recunoaștere a vorbirii)

Sistemul de căutare poate combina un set de rezultate de recunoaștere vizuală pentru interogarea de căutare bazată pe imagine primită cu jurnalele de interogare de căutare și atribute de interogare de căutare cunoscute pentru a genera interogări de căutare candidate în limbaj natural relevante pentru interogarea de căutare bazată pe imagine de intrare.

Interogările de căutare candidat în limbaj natural sunt părtinitoare către interogări de căutare care

  1. Potriviți intenția utilizatorului
  2. Generați pagini interesante sau relevante cu rezultatele căutării
  3. Sunt determinate a fi interogări de căutare populare
  4. Include sau sunt asociate cu interogarea în limbaj natural primită

Caracteristici de imagine cu granulație grosieră și caracteristici de imagine cu granulație fină

Brevetul ne spune că ar putea folosi atât caracteristici de imagine cu granulație grosieră, cât și caracteristici de imagine cu granulație fină pentru a mapa o imagine la o anumită interogare de căutare. Deci care este diferența dintre cele două?

De exemplu, imaginea de interogare poate include o imagine a unei cărți pe o masă. Într-un astfel de caz, o caracteristică cu granulație grosieră a imaginii de interogare poate fi cartea și o caracteristică cu granulație fină poate fi titlul sau genul cărții. În imaginea de interogare exemplu descrisă în FIG. 1, caracteristicile de imagine cu granulație grosieră pot include „oraș” sau „clădiri”, iar caracteristicile cu granulație fină pot include „Londra” sau „Cornișul”.

Brevetul ne spune că s-ar putea concentra asupra obiectelor sau caracteristicilor etichetate de un sistem de recunoaștere a imaginii ca fiind:

  • Mare (ocupând o cantitate mare de suprafață a imaginii
  • Mic (ocupând o cantitate mică de suprafață a imaginii
  • Central (centrat în mijlocul imaginii)

O imagine de interogare poate include o imagine a unei cărți pe o masă.

În acea imagine, o caracteristică de imagine mare poate fi tabelul, iar o caracteristică de imagine mică poate fi cartea.
Cartea poate fi o caracteristică centrală a imaginii.

O interogare de imagine combinată și o interogare în limbaj natural

Într-o căutare a clădirii Cornișul (vezi în imaginea de titlu pentru această postare), cineva poate trimite o fotografie a clădirii și poate include o interogare în limbaj natural, cum ar fi:

  • „Ce stil de arhitectură este The Gherkin?”
  • „Cât de înalt este Cornișul?”
  • „Cine ocupă The Gherkin?”
  • „Indicații de mers către The Gherkin”

Rezultatele căutării ca răspuns la o căutare de imagini

Un exemplu de pagină SERP-uri poate afișa linkuri și fragmente către rezultate de pe diferite site-uri legate de imaginea căutată, precum și un panou de cunoștințe care oferă „informații generale referitoare la entitatea „Cornișul”, cum ar fi dimensiunea, vârsta și adresa clădirea."

De asemenea, brevetul ne spune că rezultatele căutării pot, de asemenea:

  • Afișați mai multe interogări de căutare candidați care sunt pre-asociate cu una sau mai multe entități
  • Generați scorurile respective pentru fiecare dintre interogările de căutare a candidatului
  • Selectați o interogare de căutare reprezentativă din interogările de căutare candidate pe baza scorurilor generate

De asemenea, brevetul ne spune că o imagine sau un videoclip poate fi trimis ca parte a unei căutări cu o interogare scrisă în limbaj natural sau chiar cu o interogare vorbită în limbaj natural (și atât interogările video, cât și cele vorbite sunt luate în considerare în acest brevet.)

Brevetul ne vorbește despre un adnotator de imagine care poate adăuga etichete de imagine de interogare (rezultate de recunoaștere vizuală) pentru o imagine de interogare introdusă de utilizator. Găsesc acest lucru interesant pentru că am cerut-o pe Claire Carlile să-mi sublinieze ieri faptul că Google a început să ruleze din nou programul Image Labeler. A fost rulat anterior ca un joc bazat pe un joc ESP de Luis von Ahn, care a inventat programul Captcha pe care l-a folosit și Google. Utilizarea jocului este de a ajuta Google să înțeleagă mai bine ce etichete ar trebui să se aplice imaginilor prin crowdsourcing adnotărilor umane ale imaginilor.

Brevetul ne spune mai multe despre adnotarea imaginilor, care implică etichete de imagini de interogare cu granulație grosieră și etichete de imagine de interogare cu granulație fină:

În timpul operaţiei (B), adnotatorul de imagine 0 poate primi datele asociate cu imaginea de interogare introdusă de utilizator şi poate identifica una sau mai multe etichete de imagine de interogare, de exemplu, rezultatele recunoaşterii vizuale, pentru imaginea de interogare introdusă de utilizator. De exemplu, adnotatorul de imagine poate include sau poate fi în comunicare cu unul sau mai multe back-end care sunt configurate pentru a analiza o anumită imagine de interogare și pentru a identifica una sau mai multe etichete de imagine de interogare. Adnotatorul de imagine poate identifica etichete de imagine cu granulație fină (etichete de imagine care etichetează repere specifice, coperți de cărți sau postere care sunt prezente într-o anumită imagine) și/sau etichete de imagine cu granulație grosieră (etichete de imagine care etichetează obiecte, cum ar fi un tabel, carte sau lac.) De exemplu, pe baza primirii datelor asociate cu fotografia introdusă de utilizator 206, adnotatorul de imagine poate identifica etichete de imagine cu granulație fină, cum ar fi „Cornișul” sau „Londra” pentru intrarea utilizatorului fotografia 206 și poate identifica etichete de imagine cu granulație grosieră, cum ar fi „Clădiri” sau „oraș”. În unele implementări, adnotatorul de imagine poate returna etichete de imagine de interogare care se bazează pe rezultate OCR sau recunoaștere vizuală textuală. De exemplu, adnotatorul de imagine poate identifica și atribui un nume tipărit pe un indicator stradal care este inclus în imaginea de interogare sau numele unui magazin care este inclus în imagine, ca etichete de imagine de interogare.

O interogare pentru o clădire ar putea folosi recunoașterea imaginii pentru a identifica clădiri precum:

  • "Turnul Eiffel"
  • "Empire State Building"
  • "Taj Mahal"

Eticheta cu granulație fină „The Gherkin” pentru imaginea antet pentru această postare poate fi găsită, iar motorul de recunoaștere poate identifica entități precum „Norman Foster”, (arhitect) „Standard Life” (chiriaș) sau „City of London”. ” (locație) ca fiind asociată cu imaginea de interogare introdusă de utilizator pe baza comparării etichetei de interogare „The Gherkin” cu termenii asociați cu un set de entități cunoscute.

Un set cunoscut de entități poate fi accesibil motorului de recunoaștere folosind o bază de date care le poate identifica.

Pe baza identificării entităților asociate cu imaginea de interogare introdusă de utilizator etichetată, motorul de recunoaștere poate transmite date care identifică entitățile și orice termeni suplimentari de context către motorul de interogare. Vedem astfel de asociații pe etichetele imaginilor care apar în SERP-urile pentru [cornișor], cum ar fi o mențiune despre Norman Foster și Searcys - un restaurant din clădire:

Imagini din rezultatele căutării cu categorii

Acest brevet de imagine de cartografiere ne arată cum entitățile din graficul de cunoștințe pot fi mapate împreună pentru a reflecta entitățile asociate. Ni se spune despre un motor de cunoștințe care conectează aceste entități efectuând o interogare de imagine:

În timpul funcționării (F), front-end-ul motorului de interogare poate primi datele care identifică una sau mai multe entități și poate transmite datele care identifică entitățile către motorul de cunoștințe. De exemplu, front-end-ul motorului de interogări poate primi informații care identifică entitățile „The Gherkin”, „Norman Foster”, „Standard Life” și „City of London” și poate transmite date către motorul de cunoștințe care identifică „The Gherkin”. ”, „Norman Foster”, „Standard Life” și „City of London”. În unele cazuri, front-end-ul motorului de interogare poate transmite datele care identifică entitățile către motorul de cunoștințe prin una sau mai multe rețele sau prin una sau mai multe alte conexiuni cu fir sau fără fir.

De asemenea, ne spune că interogările de căutare a candidaților (cu răspunsuri) pot fi mapate la anumite entități, folosind din nou Cornișul ca exemplu:

Motorul de cunoștințe poate primi datele care identifică entitățile și poate identifica una sau mai multe interogări de căutare candidate care sunt pre-asociate cu una sau mai multe entități. În unele implementări, motorul de cunoștințe poate identifica interogări de căutare candidate legate de entități identificate pe baza accesării unei baze de date sau server care menține interogări de căutare candidate referitoare la entități, de exemplu, o hartă de interogare precalculată. De exemplu, motorul de cunoștințe poate primi informații care identifică entitatea „Cornișul”, iar motorul de cunoștințe poate accesa baza de date sau serverul pentru a identifica interogările de căutare candidate care sunt asociate cu entitatea „Cornișul”, cum ar fi „Cât de înalt este. Cornișul” sau „Ce stil de arhitectură este Cornișul?” În unele implementări, baza de date sau serverul accesat de motorul de cunoștințe poate fi o bază de date sau un server care este asociat cu motorul de cunoștințe, de exemplu, ca parte a motorului de cunoștințe, sau motorul de cunoștințe poate accesa baza de date sau serverul, de exemplu, pe una sau mai multe rețele. Baza de date sau serverul care menține interogări de căutare candidat legate de entități, de exemplu, o hartă de interogare precalculată, poate include interogări de căutare candidat în diferite limbi. În astfel de cazuri, motorul de cunoștințe poate fi configurat pentru a identifica interogările de căutare candidate care sunt asociate cu o anumită entitate într-o limbă care se potrivește cu limba utilizatorului, de exemplu, așa cum este indicat de dispozitivul utilizatorului sau de o interogare în limbaj natural furnizată cu o imagine de interogare. .

Google poate analiza interogările care sunt pre-asociate cu entități care pot fi legate de imaginile interogărilor și poate oferi scoruri pentru acele interogări. Brevetul arată un exemplu în acest sens:

Partea frontală a motorului de interogări poate primi datele care includ sau identifică una sau mai multe interogări de căutare candidate și scorurile de relevanță ale acestora din motorul de cunoștințe și poate selecta una sau mai multe interogări de căutare reprezentative din una sau mai multe interogări de căutare candidate pe baza cel puțin privind scorurile de relevanță (prin clasarea uneia sau mai multor interogări de căutare candidate și selectând mai multe interogări de căutare cu cel mai mare scor ca interogări de căutare reprezentative.) De exemplu, front-end-ul motorului de interogări poate primi date care includ sau identifică interogările de căutare candidate „Cât de înalt este Cornișul?” cu scor de relevanță 0,7 și „Ce stil de arhitectură este Cornișul?” cu scor de relevanță 0,8. Pe baza scorurilor de relevanță, front-end-ul motorului de interogări poate selecta interogarea de căutare a candidatului „Ce stil de arhitectură este Gherkin?” În unele implementări, front-end-ul motorului de interogări poate selecta una sau mai multe interogări de căutare reprezentative din una sau mai multe interogări de căutare candidate pe baza scorurilor de relevanță și a scorurilor de etichetă primite de la adnotatorul de imagine (prin agregarea scorurilor de relevanță și a scorurilor de etichetă folosind o funcție de clasare sau un clasificator.)

Locații asociate și interogări de imagine

Contextul unei imagini de interogare poate juca un rol în determinarea dacă imaginea de interogare are o locație asociată care se potrivește cu interogarea de căutare candidată.

De exemplu, o fotografie a unei haine poate fi înțeleasă ca a fost făcută la un centru comercial. Sistemul de căutare poate genera scoruri de relevanță mai mari pentru interogările de căutare candidați care sunt legate de cumpărături sau rezultate comerciale pentru imaginea respectivă, bazate pe contextul respectiv.

O altă fotografie a unei haine este percepută ca fiind făcută în casa utilizatorului. Sistemul de căutare poate genera scoruri de relevanță mai mari pentru interogările de căutare a candidaților care sunt legate de vreme, cum ar fi „Am nevoie de haina mea astăzi?”

Un alt exemplu ar putea fi înțelegerea contextului ca fiind o locație corespunzătoare locației curente a dispozitivului de căutare. De exemplu, sistemul de căutare poate determina că o imagine cu flori este primită într-un anumit oraș sau cartier. Sistemul de căutare poate genera scoruri de relevanță mai mari pentru interogările de căutare a candidaților care sunt legate de florarii sau serviciile de grădinărit din apropiere.

Interogări de imagine care au primit o casetă și carduri de răspuns web

Pentru unele rezultate, atunci când scorul de relevanță poate include o măsură a cât de interesantă și utilă ar putea fi pagina cu rezultatele căutării, sistemul de căutare poate genera scoruri de relevanță mai mari pentru interogările de căutare candidați care produc pagini cu rezultate de căutare cu o singură casetă sau carduri de răspuns web decât interogări de căutare de candidați care produc pagini cu rezultate ale căutării fără casete sau carduri de răspuns web.

Interogări de imagine Recomandări

Sistemul de căutare este conectat la un sistem de cunoștințe

Cum sunt mapate interogările la imagini

Când o interogare constă numai dintr-o imagine, Google poate identifica ce este în imagine și etichetele asociate cu imaginea. Poate încerca să înțeleagă ce alte entități ar putea fi legate de ceea ce este în imagine și să vadă dacă interogări pre-asociate sunt asociate în mod obișnuit cu orice ar putea fi imaginea sau cu acele entități asociate. Poate folosi și indicii contextuale, cum ar fi locația, pentru a înțelege mai bine intenția din spatele interogării de imagine.

Dacă imaginea are inclusă o interogare în limbaj natural, fie scrisă, fie vorbită, se poate lua în considerare și acele entități asociate și interogări pre-asociate din privire la jurnalele de interogări, precum și contextul din locație.

Accesul la categoriile semantice din căutarea de imagini poate oferi câteva indicii cu privire la ceea ce ar putea afișa Google în Rezultatele căutării ca răspuns la o interogare de imagine.