Riclassificazione del contenuto in base a un punteggio dell'autore (concesso!)

Pubblicato: 2018-12-11

Un sondaggio che ho eseguito su Twitter sulle classifiche dei contenuti

Ho condotto un sondaggio su Twitter, chiedendo se un autore originale avesse postato un post sul blog sul proprio sito, e poi avesse pubblicato lo stesso post su una rivista online, quale versione finirebbe per essere classificata più in alto? Ho fornito le scelte del sito dell'autore originale, la rivista online e un risultato "Dipende", chiedendo commenti che spiegassero questi. Ho ricevuto alcuni ottimi commenti che coprono un sacco di terreno.

Il sondaggio ha restituito 556 voti come segue:

C'erano molte opinioni su ciò che avrebbe potuto far salire di livello il post dell'autore o il post della rivista online, come questa di John Alexander:

Diverse persone hanno suggerito che idealmente dovrebbe essere utilizzata anche la canonicalizzazione tra domini, come Jonah Stein:

In qualità di autore che può controllare il proprio sito, ma non un tale sito di riviste online, potrebbe essere difficile che la rivista online punti un elemento di collegamento canonico al tuo sito.

Ho fatto in modo che Vikki Fraser mi fornisse un esempio del suo articolo che superava una rivista online per contenuti molto simili:

Mi è stato anche chiesto da Cyrus Shepard se si applicasse o meno l'inversione del collegamento:

La mia risposta è stata che, per quanto ne so, Google non applica l'inversione del collegamento. Ho esplorato Link Inversion quando ho scritto su Google che cercava di identificare la versione principale delle pagine duplicate.

Alcune persone, come Martin McGarry, ritenevano che dipendesse da quanto il contenuto potesse essere rilevante per l'attualità per ciascuno dei luoghi pubblicati:

O come ha notato Joshua Levenson, potrebbe fare affidamento sulla versione pubblicata per prima:

La risposta di Peter McCarthy sembra corrispondere alla mia esperienza e a una domanda di brevetto di Google pubblicata di recente, di cui sto includendo informazioni in questo post:

Riclassificazione dei risultati per un'entità in base al punteggio dell'autore

Recentemente è uscita una domanda di brevetto che ci parla di un metodo di reranking per i risultati di ricerca quando si tratta di risultati che hanno un contenuto molto simile o sostanzialmente lo stesso. Distingue questi risultati dicendo che uno di essi proviene da un'entità che non è nota per produrre contenuto originale (copia o ridistribuisce il contenuto originale creato da altre entità. L'altro pezzo di contenuto è associato a una seconda entità che è nota per produrre contenuto originale.

C'è un riferimento ad un brevetto provvisorio in questa domanda di brevetto che ha un titolo molto interessante, e secondo questo brevetto è stato incorporato nella sua interezza. Quel brevetto è la domanda di brevetto provvisorio statunitense n. 61/648.562 depositata il 17 maggio 2012, intitolata "Sistemi e metodi per determinare una probabilità che un'entità sia un autore di contenuti originali" (questo collegamento è al deposito del brevetto da parte dell'OMPI. )

Classifiche più alte per un autore originale indipendentemente dai punteggi di pertinenza

Quindi, questa domanda di brevetto per il punteggio dell'autore ci dice che:

…A volte è desiderabile classificare i risultati della ricerca che corrispondono a documenti associati a entità che sono autori di contenuti originali più alti dei risultati della ricerca corrispondenti a documenti associati a entità che non sono autori di contenuto originale anche se i documenti associati a entità che non sono autori di contenuti originali hanno punteggi di pertinenza più alti.

L'algoritmo alla base di questo brevetto d'autore originale prevede:

  • (i) contenuto inviato, qualora il contenuto inviato sia identificato come pubblicato da un'entità
  • (ii) un collegamento alla posizione su una risorsa che ospita il contenuto inviato; valutare se il contenuto inviato è rappresentato in un indice di contenuto noto per determinare se il contenuto inviato è nuovo rispetto al contenuto noto
  • in risposta alla valutazione, inviare una richiesta a un motore di ricerca per eseguire la scansione e indicizzare il contenuto inviato ospitato dalla risorsa associata al collegamento quando il contenuto inviato è nuovo rispetto al contenuto noto, dove la richiesta al motore di ricerca di eseguire la scansione e indicizzare il contenuto inviato ospitato dalla risorsa associata al collegamento viene emesso in risposta alla determinazione che il contenuto inviato è considerato non rappresentato nell'indice del contenuto noto

Il brevetto ci dice che la richiesta di eseguire la scansione del nuovo contenuto andrebbe a un crawler ad alta priorità del motore di ricerca, che è la prima volta che ne sento menzionare uno in un brevetto di Google.

Il brevetto si riferisce anche all'uso di "Shingles" utilizzato per identificare contenuti simili o sostanzialmente uguali. Maggiori informazioni sull'herpes zoster in questo documento: identificazione e filtraggio di documenti quasi duplicati

Sembra che il brevetto dell'autore originale esaminerà altri contenuti creati dall'entità che potrebbero essere associati a una delle versioni di questo contenuto:

In alcune forme di realizzazione, prima di inviare la richiesta al motore di ricerca per eseguire la scansione e indicizzare il contenuto inviato ospitato dalla risorsa associata al collegamento, il metodo include la determinazione che l'entità è un autore del contenuto originale sulla base di una valutazione di altri contenuti inviati identificati come pubblicato dall'ente, laddove l'altro contenuto presentato identificato come pubblicato dall'ente è incluso nel contenuto noto; e la richiesta al motore di ricerca di scansionare e indicizzare il contenuto inviato ospitato dalla risorsa associata al collegamento viene emessa in risposta alla determinazione che il contenuto inviato è considerato non rappresentato nell'indice del contenuto noto e alla determinazione che l'entità è un autore di contenuti originali.

Questa domanda di brevetto fa sembrare che Google stia tenendo traccia delle entità che sono autori raccogliendo scandole di cose che hanno scritto.

Il brevetto descrive anche un processo di verifica e registrazione che un autore potrebbe utilizzare per verificare di essere l'autore del contenuto e per registrarsi come autore.

Ci dice anche che potrebbe iniziare a contrassegnare il contenuto con un identificatore per l'entità associata al contenuto, incluso almeno un autore del contenuto o un editore di contenuto, o almeno un sito web.

Il brevetto ci dice anche che può determinare se i pezzi di contenuto sono simili determinando i punteggi dell'autore per ciascuno dei pezzi di contenuto. Un punteggio dell'autore includerebbe anche un punteggio di citazione per l'entità coinvolta che esamina la frequenza con cui viene citato il contenuto di tale entità.

Come funziona il reranking basato sul fatto che un'entità sia un autore originale

…Il primo risultato di ricerca è classificato più in alto del secondo risultato di ricerca; determinare che il primo documento e il secondo documento soddisfano un criterio di somiglianza; determinare che la seconda entità soddisfi un differenziale di paternità predefinito rispetto alla prima entità; e in risposta alla determinazione che la seconda entità soddisfa il differenziale di paternità predefinito relativo alla prima entità, scambiare il secondo risultato di ricerca e il primo risultato di ricerca nei risultati di ricerca classificati per produrre risultati di ricerca riclassificati.

La domanda di brevetto per il punteggio d'autore è disponibile su:

(US20180341656) Sistemi e metodi per riclassificare i risultati della ricerca classificata
Inventori: Chung Tin Kwok, Lei Zhong e Zhihuan Qiu
Numero di pubblicazione: 20180341656
Data di pubblicazione: 29 novembre 2018
Richiedenti: GOOGLE LLC

Astratto:

Vengono presentati un sistema, un supporto di memorizzazione leggibile da computer che memorizza almeno un programma e un metodo implementato dal computer per riclassificare i risultati di ricerca classificati. Si ottengono risultati di ricerca classificati che soddisfano una query di ricerca, in cui i risultati di ricerca ordinati includono un primo risultato di ricerca corrispondente a un primo documento associato a una prima entità e un secondo risultato di ricerca corrispondente a un secondo documento associato a una seconda entità e dove il primo il risultato della ricerca è classificato più in alto del secondo risultato della ricerca. Il primo documento e il secondo documento sono determinati a soddisfare un criterio di somiglianza. La seconda entità è determinata a soddisfare un differenziale di paternità predefinito relativo alla prima entità. In risposta alla determinazione che la seconda entità soddisfa il differenziale di autore predefinito relativo alla prima entità, il secondo risultato di ricerca e il primo risultato di ricerca nei risultati di ricerca classificati vengono scambiati per produrre risultati di ricerca riclassificati.

Alcune conclusioni su una partitura d'autore

Il brevetto fornisce molti dettagli che vale la pena dedicare del tempo a esaminare se vuoi saperne di più. Ad esempio, un autore del contenuto è spiegato in modo accurato nei dettagli come segue:

Ad esempio, la rispettiva entità può includere un singolo autore o uno di una pluralità di coautori per (o contributori a) contenuti. In alcune forme di realizzazione, un'entità è un'organizzazione aziendale che produce contenuti originali o parzialmente originali. In alcune forme di realizzazione, un'entità è un'organizzazione di notizie. In alcune implementazioni, l'entità include almeno un editore di contenuto. Ad esempio, la rispettiva entità potrebbe essere un editore di libri, un editore di periodici, un editore di contenuti online! e/o simili. In alcune implementazioni, la rispettiva entità è l'autore del contenuto su almeno un sito web. Ad esempio, la rispettiva entità può contribuire con contenuti originali a un sito Web di blog, un sito Web per un editore (ad es. notizie, riviste, ecc.) e/o simili. Tieni presente che tale sito Web può includere un sottoinsieme del contenuto all'interno di un particolare dominio. Ad esempio, il sito Web può includere contenuti in un particolare dominio (ad esempio, un dominio di primo livello example.com). In un altro esempio, il sito Web include contenuti in un sottodominio del particolare dominio (ad esempio, un sottodominio biogs.example.com). In un altro esempio, il sito Web include contenuto in una directory del dominio (ad es. www.example.com/johndoe/). In alcune forme di realizzazione, il sito Web include contenuto in una pluralità di domini (ad esempio una rete di siti Web affiliati), una pluralità di sottodomini di almeno un dominio e/o una pluralità di sottodirectory di almeno un dominio. In alcune forme di realizzazione, il contenuto creato da un'entità è un post di blog, un post di social network o un post in un thread di discussione online. In alcune forme di realizzazione, il contenuto creato dall'entità è qualsiasi contenuto che è stato pubblicato in una posizione accessibile su Internet in modo tale che sia facilmente accertabile che l'entità abbia pubblicato il contenuto.

Il brevetto mi ha ricordato il programma di paternità di Google sotto Google+, dove ti collegavi al luogo che hai pubblicato come autore con un rel=”me” nel tuo link a quel sito.

È interessante creare un punteggio dell'autore che includa un punteggio di citazione che identifichi la frequenza con cui un autore potrebbe essere citato altrove sul Web. L'idea di utilizzare le citazioni come un modo per valutare gli autori mi ricorda l'uso delle citazioni nel PageRank come descritto in The PageRank Citation Ranking: Bringing Order to the Web. Come ci dice l'estratto di quel documento:

Questo articolo descrive il PageRank, un metodo per valutare le pagine Web in modo oggettivo e meccanico, misurando efficacemente l'interesse umano e l'attenzione ad esse dedicata.

Aggiunto il 10 dicembre 2019 – Questo brevetto è stato concesso oggi a Sistemi e metodi per riclassificare i risultati di ricerca classificati. Funziona per scambiare i primi due risultati in una serie di risultati di ricerca basati su un punteggio dell'autore originale per l'autore del primo articolo e un punteggio dell'autore più alto per l'autore del secondo articolo.