Skip to main content

Svelati i segreti dell’algoritmo di Google: migliaia di pagine trapelate

Google leak documento su come funziona la ricerca
29 Maggio 2024, 11:40 | Lorenzo Ricciutelli Lorenzo Ricciutelli

Un leak di 2.500 pagine di documenti interni di Google potrebbe svelare i segreti dell’algoritmo del più importante motore di ricerca.

L’algoritmo di Google che gestisce quali siti web vengono o non vengono mostrati è probabilmente il più influente del web.

È proprio questo algoritmo – o ancora meglio una serie di algoritmi che lavorano insieme – a modellare l’aspetto dei contenuti online e, in qualche specifico caso, quali aziende sopravvivono o no. Il funzionamento preciso del ranking non è mai stato divulgato: sempre avvolto nel mistero, i webmaster, ma anche i giornalisti o gli esperti di SEO hanno sempre ipotizzato alcune teorie tuttavia non universali e non applicabili su tutti i siti web del mondo.

A far tremare Google, come se non bastasse l’agguerrita concorrenza nel mondo dell’intelligenza artificiale, è un leak che mostra migliaia di documenti interni che sembra offrire uno sguardo senza precedenti su come funziona la “Search”. E Google potrebbe non essere stata del tutto sincera riguardo il suo funzionamento. Ad oggi, l’azienda di Mountain View non ha ancora commentato l’accaduto.

Rand Fishkin, uno dei SEO più influenti e importanti del panorama internazionale, ha dichiarato che una sua fonte ha condiviso il documento da 2.500 pagine con la speranza che il reportage sul leak potesse contrastare le “bugie” che i dipendenti di Google avrebbero diffuso sul funzionamento dell’algoritmo di ricerca. I documenti delineano l’API di ricerca di Google e spiegano quali informazioni sono accessibili ai dipendenti, secondo Fishkin. Qui l’articolo di Fishkin pubblicato su Sparktoro.

Rand Fishkin e la sua fonte anonima che ha leakato il documento

I dettagli condivisi da Fishkin sono complessi e tecnici, più comprensibili per sviluppatori ed esperti SEO che per i normali utilizzatori del motore di ricerca. Il leak descrive quali dati Google raccoglie dalle pagine web, dai siti e dagli utenti, offrendo indizi indiretti agli esperti SEO su ciò che Google sembra considerare importante ai fini del posizionamento organico sul motore di ricerca.

Nei documenti viene descritto il metodo che Google adotta per raccogliere ed utilizzare i dati sui siti web, con specifiche ad hoc per tematiche sensibili come le elezioni, come gestisce (e forse penalizza) i siti web più piccoli e tanto altro ancora.

La parte più “brutta” è che le informazioni presenti sul documento sembrano contraddire le dichiarazione pubbliche dei rappresentati di Google.

Un esempio calzante è sui dati che raccoglie Google Chrome. Il team di Google incaricato di divulgare le informazioni ai SEO di tutto il mondo ha sempre negato questo fatto, affermando che Chrome non utilizza i dati raccolti per classificare pagine e siti web. Il problema è che nel documento c’è scritto l’esatto contrario.

Mike King afferma: “Mentito è una parola forte, ma è l’unica accurata da usare in questo contesto. Sebbene non biasimi necessariamente i PR di Google per proteggere le loro informazioni proprietarie, non posso accettare i loro sforzi per screditare attivamente persone nel mondo del marketing, della tecnologia e del giornalismo che hanno presentato scoperte riproducibili.”

In questo preciso momento, per via di un paio di aggiornamenti importanti che hanno stravolto le SERP (le pagine dei risultati di ricerca), gli utenti e gli esperti del settore (io compreso) si trovano a vivere dei momenti difficili. Google ha attualmente dato piena visibilità a siti web enormi, con anni di storico e traffico, mostrandoli al posto di siti web che magari rispondevano con precisione all’esatta query dell’utente. Da diverso tempo Google consiglia di lavorare sull’E-E-A-T, ovvero una metrica che classifica l’esperienza, la competenza, l’autorevolezza e l’affidabilità. Analizzando i documenti, Fishkin ha trovato pochissime informazioni a riguardo.

King, tuttavia, ha spiegato come Google raccoglie i dati sugli autori da una pagina e abbia un campo per indicare se un’entità sulla pagina è l’autore. Una parte dei documenti condivisi da King riporta che il campo è stato “principalmente sviluppato e ottimizzato per articoli di notizie… ma è anche popolato per altri contenuti (es. articoli scientifici).” Sebbene questo non confermi che le firme degli autori siano una metrica di ranking esplicita, mostra che Google almeno tiene traccia di questo attributo. I rappresentanti di Google hanno precedentemente insistito che le firme degli autori sono qualcosa che i proprietari dei siti dovrebbero fare per i lettori, non per Google, perché non influenzano i ranking.

Fishkin ha detto a The Verge via email che l’azienda non ha contestato la veridicità del leak, ma un dipendente gli ha chiesto di modificare alcuni termini nel suo post pubblicato, che è esploso come una bomba per chi lavora nel settore.

La situazione per Google è difficile da affrontare. Io lavoro nel campo della SEO da 10 anni e, a dirla tutta, non sono così devastato dalla notizia. È vero, è brutto sentirsi “presi in giro” dalla stessa azienda a cui hai affidato ogni informazione personale, anche privata e una lunga serie di attività commerciali correlate che vivono in funzione agli “algoritmi”.

Ma essere un SEO vuol dire sperimentare, sempre, ogni giorno e spesso andare contro a quello che dice John Muller e colleghi. Basta analizzare le SERP e leggere il contenuto come farebbe un’utente per rendersi conto che Google si è rotto, vuoi per accordi commerciali privati (vedi il caso Reddit), vuoi perché in un periodo di profondi cambiamenti per colpa dell’intelligenza artificiale deve almeno provare ad arginare i danni di un utilizzo errato di questa nuova e terrificante tecnologia.


Lorenzo Ricciutelli
Fondatore e autore di Techdot. Vivo da sempre con un’amore sfrenato per l’informatica e la tecnologia. Homo sanza lettere, discepolo della esperienza. Imprenditore digitale.