Di chi è l’indice dei motori di ricerca alternativi?

schema usabilità motori di ricerca

Negli ultimi 25 anni i motori di ricerca ci hanno abituato a leggere tra una decina di link. Dal 2023 sono arrivate nuove interfacce per i motori di ricerca (Google l’ha chiamata GSE, Generative Search Experience; Bing l’ha chiamata Copilot) che estraggono e rimescolano contenuto prendendolo dall’interno dei siti internet. In teoria i motori di ricerca che usano tecnologie generative ci “risparmiano” un po di tempo di lettura.

Anche grazie alla lotta per la privacy, c’è un numero crescente di persone che sceglie di usare motori di ricerca alternativi… ma se questi motori usano lo stesso indice di Google o di Bing, stiamo semplicemente allungando la filiera e non cambia l’infrastruttura (e con essa le storture di mercato che vedono oggi Google ancora monopolista mondiale).

Proprietà degli indici dei motori di ricerca alternativi
Motore di Ricerca Proprietà indice Note
Google Proprio Fonte tesi di Stanford versione web
Brave Proprio Brave Search delivers results from its own index of the Web. And it doesn’t track users, their queries, or their clicks. Fonte sito Brave
Qwant Proprio Erroneamente attribuito a Bing, Fonte sito Qwant
Perplexity Bing e “altri” Perplexity.ai’s CEO admitted in an interview that they’re depending on Bing and other indexes for their RAG. Fonte Aravind Srinivas’s Interview. Risultati di alcune ricerche indipendenti danno fonti perplexity molto simili a quelle di Google.
DuckDuckGo Bing Fonte Sito DuckDuckGo
Ecosia Bing Fonte BBC
Yahoo! Bing Fonte Wikipedia
OpenAI / GPT CommonCrawl e Bing Fonte Mozilla Blogseroundtable
Mistral AI / Le Chat Probabilmente Bing Fonte Notizia dell’investimento di Microsoft in Mistral

Consigliatissimo, l’articolo sempre aggiornato di Seirdy che per esempio si aggiorna con tutti i licenziatari dell’indice di Bing (oltre 15! Tra cui You.com, Swisscows, ecc).

e come si entra in questi indici?

Come chiedere che il nostro sito venga indicizzato
Motore di Ricerca Accesso
Google Google Search Console, WebSub
Bing Bing Webmaster Tools, IndexNow
Yandex Yandex Webmaster Tools, IndexNow
Qwant Form mail! feeling like 1999 😀
Brave abilitare Web Discovery Project in sostanza cedere privacy, non il massimo come soluzione

Vorrei evitare che il mio sito esca nella Generative Search Experience di Google, per evitare che gli utenti trovino tutto dentro Google senza bisogno di visitare il mio sito: è possibile?

in poche parole no, o esci da Google del tutto, o ti tieni la GSE (e conseguente perdita di traffico).

ma scusa io blocco Googlebot-Extended e sono apposto!

Non proprio!

  • da 28 settembre 2023, Googlebot-Extended è un nuovo crawler progettato per gestire come il contenuto del sito venga utilizzato per l’addestramento dei modelli di intelligenza artificiale, in particolare per i prodotti generativi di Google come Bard (ora chiamato Gemini Apps) e Vertex AI. Non influisce sulle funzionalità di ricerca tradizionali di Google.

Utilizzo:

  • I webmaster possono specificare nel loro file robots.txt che non vogliono che il loro contenuto venga utilizzato per l’addestramento dell’IA disallowando l’user agent Googlebot-Extended. Questo consente loro di continuare a essere indicizzati da Google Search mentre scelgono di non contribuire al miglioramento dei modelli di IA. È importante notare che bloccare Googlebot-Extended non impedisce che il contenuto venga incluso nell’Experience Generativa della Ricerca (SGE), che richiede di bloccare completamente Googlebot se si desidera farlo.
Caratteristica Googlebot Googlebot-Extended
Scopo Scansiona e indicizza pagine web per la ricerca Gestisce l’uso del contenuto per l’addestramento dell’IA
Controllo User-Agent Gestito tramite robots.txt e meta tag Gestito tramite robots.txt con token specifico
Impatto sulla Ricerca Influisce sull’indicizzazione e sul ranking Non influisce sull’indicizzazione o sul ranking
Coinvolgimento nei Modelli IA Il contenuto può essere utilizzato per addestrare l’IA Il contenuto può essere escluso dall’addestramento dell’IA
simone
appassionato di seo, linked open data e ambiente