Google returnează rezultatele căutării video folosind învățarea automată?

Publicat: 2020-04-15

Probleme cu rezultatele căutării video

O zonă care cauzează probleme pentru cei care caută este atunci când aceștia pot căuta un videoclip ca răspuns la o interogare. Un brevet Google acordat recent descrie modul în care Google poate răspunde la interogările care afișează rezultatele căutării video. Brevetul ne spune că scopul din spatele acestuia este „identificarea videoclipurilor sau a părților acestora care sunt relevante pentru termenii de căutare”.

Algoritmul din spatele brevetului încearcă să rezolve o problemă care este descrisă în detaliu în descrierea brevetului.

Ceea ce ne spune este că persoanele care folosesc „site-uri web de găzduire media” vor naviga sau căuta de obicei conținutul media găzduit, cum ar fi videoclipuri, încercând să folosească cuvinte cheie sau termeni de căutare în interogări pentru a găsi „metadate textuale care descriu conținutul media”. Ceea ce se înțelege prin „metadate textuale” poate include:

  • Titluri ale fișierelor media
  • Rezumate descriptive ale conținutului media

Brevetul explică de ce aceasta poate fi o problemă. Ne spune că astfel de metadate textuale pot deseori să nu fie reprezentative pentru întregul conținut al videoclipului, mai ales dacă un videoclip este foarte lung și are o varietate de scene.

De obicei, o descriere care însoțește un videoclip este destul de scurtă și nu descrie toate scenele dintr-un videoclip. Ceea ce poate însemna aceasta este că un videoclip care poate fi ceea ce caută un utilizator nu poate fi returnat ca răspuns la o căutare pe cuvinte cheie care ar putea descrie astfel de scene. După cum ne spune brevetul:

Astfel, motoarele de căutare convenționale nu reușesc adesea să returneze conținutul media cel mai relevant pentru căutarea utilizatorului

O altă problemă cu majoritatea site-urilor web de găzduire media apare din cauza cantității mari de conținut media găzduit, o interogare de căutare poate returna sute sau chiar mii de videoclipuri care răspund la interogarea utilizatorului.

Acest lucru ar putea însemna că un utilizator poate avea probleme în a decide care dintre rezultatele căutării video sunt cele mai relevante.

Pentru ca cineva să decidă mai ușor ce videoclip ar putea fi cel mai relevant, un site web poate prezenta acele rezultate ale căutării cu imagini în miniatură

Adesea, imaginile în miniatură pentru videoclipuri sunt un cadru predeterminat din fișierul video (posibil primul cadru, cadru central sau ultimul cadru).

Aceasta poate fi o problemă, deoarece miniaturile selectate în acest mod adesea nu sunt reprezentative pentru conținutul videoclipului. Și este posibil ca acea miniatură să nu fie relevantă pentru interogarea de căutare a unui utilizator. Dacă nu este, este posibil ca un utilizator să nu poată evalua care dintre numeroasele rezultate ale căutării sunt cele mai relevante.

Din cauza acestor probleme cu rezultatele căutării video, acest brevet încearcă să ofere metode îmbunătățite de găsire și prezentare a rezultatelor căutării video pentru a permite utilizatorului să evalueze cu ușurință relevanța acelor videoclipuri.

Rezultate îmbunătățite ale căutării video

Această abordare a rezultatelor căutării video funcționează pentru a găsi și prezenta rezultate video care răspund la o interogare de cuvinte cheie a utilizatorului. Acest sistem:

  • Primește o interogare de cuvinte cheie de la un utilizator
  • Selectează un videoclip cu conținut care este relevant pentru interogarea cuvintelor cheie
  • Alege un cadru din videoclip care este reprezentativ pentru conținutul videoclipului folosind un index video care stochează scorurile de asociere a cuvintelor cheie între cadrele mai multor videoclipuri și cuvintele cheie asociate cadrelor video
  • Cadrul selectat este afișat ca o miniatură pentru videoclip

Cum acest sistem folosește un model învățat automat pentru a returna rezultatele căutării video

Acest sistem face acest lucru prin:

  • Crearea unui index video care poate fi căutat cu un model învățat de mașină al relațiilor dintre caracteristicile cadrelor video și cuvintele cheie care descriu conținutul video
  • Primirea unui set de date de antrenament etichetat care include un set de elemente media (de exemplu, imagini sau clipuri audio) împreună cu unul sau mai multe cuvinte cheie descriptive ale conținutului acelor elemente media
  • Extragerea caracteristicilor care caracterizează conținutul elementelor media
  • Învățarea corelațiilor dintre anumite caracteristici și cuvintele cheie descriptive ale conținutului
  • Crearea unui index video care mapează cadrele videoclipurilor dintr-o bază de date video cu cuvinte cheie pe baza caracteristicilor videoclipurilor și a modelului învățat automat

cuvinte cheie pentru rezultatele căutării video

Brevetul ne spune că avantajul utilizării procesului din acest brevet este că acest sistem de găzduire video găsește și prezintă rezultate de căutare bazate pe conținutul real al videoclipurilor, în loc să se bazeze doar pe metadatele textuale găsite în apropierea videoclipurilor. Acesta permite unui utilizator să evalueze mai bine relevanța videoclipurilor din rezultatele căutării.

Acest brevet pentru rezultatele căutării video poate fi găsit la:

Selectarea imaginilor bazată pe relevanță
Inventatori: Gal Chechik și Samy Bengio
Cesionar: Google LLC
Brevet SUA: 10.614.124
Acordat: 7 aprilie 2020
Depus: 15 aprilie 2015

Abstract

Un sistem, un mediu de stocare care poate fi citit de computer și o metodă implementată de computer prezintă rezultate de căutare video care răspund la o interogare de cuvinte cheie a utilizatorului. Sistemul de găzduire video utilizează un proces de învățare automată pentru a învăța un model de caracteristică-cuvinte cheie care asociează caracteristicile conținutului media dintr-un set de date de instruire etichetat cu cuvinte cheie descriptive ale conținutului acestora. Sistemul folosește modelul învățat pentru a furniza rezultate de căutare video relevante pentru o interogare de cuvinte cheie pe baza caracteristicilor găsite în videoclipuri. Mai mult, sistemul determină și prezintă una sau mai multe imagini în miniatură reprezentative pentru videoclip folosind modelul învățat

Rezultatele căutării videoclipurilor

Când Google utilizează această abordare, acordă atenție tuturor scenelor dintr-un videoclip. Chiar și un videoclip lung care include o scenă de cursă de mașini poate să nu fie descris în metadatele care însoțesc videoclipul. Brevetul ne spune că:

De exemplu, dacă utilizatorul introduce interogarea de căutare „cursă de mașini”, motorul de căutare video poate găsi și returna o scenă de curse de mașini dintr-un film, chiar dacă scena poate fi doar o scurtă porțiune a filmului care nu este descrisă în metadate textuale.

Căutare video cursă de mașini

Procesul descris în acest brevet nu ar necesita ca cineva să facă ceva special sau diferit. Ar însemna doar că Google ar putea face o treabă mai bună de a returna videoclipuri care ar putea conține conținut pe care un căutator l-ar putea căuta, cum ar fi o scenă de curse de mașini dintr-un film.

Pentru a face acest lucru, un motor de căutare video poate selecta o imagine în miniatură sau un set de imagini în miniatură pentru a fi afișate cu fiecare rezultat de căutare preluat.

Acea imagine în miniatură poate fi un cadru de imagine care este reprezentativ pentru conținutul audio-vizual al videoclipului și, de asemenea, răspunde la interogarea unui utilizator. Acesta poate ajuta un căutător să determine relevanța rezultatului căutării.

Un motor de adnotare video poate adnota cadre sau scene video dintr-o bază de date video cu cuvinte cheie relevante pentru conținutul audio-vizual al cadrelor sau scenelor și stochează aceste adnotări în indexul de adnotări video. Acesta este ceea ce ar fi căutat atunci când un căutator ar căuta un rezultat.

Brevetul oferă mult mai multe detalii despre modul în care conținutul dintr-un videoclip ar putea fi indexat pe baza cuvintelor cheie care ar putea fi folosite pentru a adnota cadrele din videoclip.

Acest proces poate însemna că videoclipurile mai relevante pot fi returnate pentru interogările utilizatorului pe baza conținutului real al acelor videoclipuri decât doar metadatele textuale care însoțesc un videoclip.

Dacă trimiteți videoclipuri pe site-uri precum YouTube, puteți testa căutarea Google pentru a vedea dacă returnează acele videoclipuri pe baza mai mult decât pe metadatele care însoțesc acele videoclipuri.