Negli ultimi 25 anni i motori di ricerca ci hanno abituato a leggere tra una decina di link. Dal 2023 sono arrivate nuove interfacce per i motori di ricerca (Google l’ha chiamata GSE, Generative Search Experience; Bing l’ha chiamata Copilot) che estraggono e rimescolano contenuto prendendolo dall’interno dei siti internet. In teoria i motori di ricerca che usano tecnologie generative ci “risparmiano” un po di tempo di lettura.
Anche grazie alla lotta per la privacy, c’è un numero crescente di persone che sceglie di usare motori di ricerca alternativi… ma se questi motori usano lo stesso indice di Google o di Bing, stiamo semplicemente allungando la filiera e non cambia l’infrastruttura (e con essa le storture di mercato che vedono oggi Google ancora monopolista mondiale).
Motore di Ricerca | Proprietà indice | Note |
---|---|---|
Proprio | Fonte tesi di Stanford versione web | |
Brave | Proprio | Brave Search delivers results from its own index of the Web. And it doesn’t track users, their queries, or their clicks. Fonte sito Brave |
Qwant | Proprio | Erroneamente attribuito a Bing, Fonte sito Qwant |
Perplexity | Bing e “altri” | Perplexity.ai’s CEO admitted in an interview that they’re depending on Bing and other indexes for their RAG. Fonte Aravind Srinivas’s Interview. Risultati di alcune ricerche indipendenti danno fonti perplexity molto simili a quelle di Google. |
DuckDuckGo | Bing | Fonte Sito DuckDuckGo |
Ecosia | Bing | Fonte BBC |
Yahoo! | Bing | Fonte Wikipedia |
OpenAI / GPT | CommonCrawl e Bing | Fonte Mozilla Blog – seroundtable |
Mistral AI / Le Chat | Probabilmente Bing | Fonte Notizia dell’investimento di Microsoft in Mistral |
Consigliatissimo, l’articolo sempre aggiornato di Seirdy che per esempio si aggiorna con tutti i licenziatari dell’indice di Bing (oltre 15! Tra cui You.com, Swisscows, ecc).
e come si entra in questi indici?
Motore di Ricerca | Accesso |
---|---|
Google Search Console, WebSub | |
Bing | Bing Webmaster Tools, IndexNow |
Yandex | Yandex Webmaster Tools, IndexNow |
Qwant | Form mail! feeling like 1999 😀 |
Brave | abilitare Web Discovery Project in sostanza cedere privacy, non il massimo come soluzione |
Vorrei evitare che il mio sito esca nella Generative Search Experience di Google, per evitare che gli utenti trovino tutto dentro Google senza bisogno di visitare il mio sito: è possibile?
in poche parole no, o esci da Google del tutto, o ti tieni la GSE (e conseguente perdita di traffico).
ma scusa io blocco Googlebot-Extended e sono apposto!
Non proprio!
- da 28 settembre 2023, Googlebot-Extended è un nuovo crawler progettato per gestire come il contenuto del sito venga utilizzato per l’addestramento dei modelli di intelligenza artificiale, in particolare per i prodotti generativi di Google come Bard (ora chiamato Gemini Apps) e Vertex AI. Non influisce sulle funzionalità di ricerca tradizionali di Google.
Utilizzo:
- I webmaster possono specificare nel loro file
robots.txt
che non vogliono che il loro contenuto venga utilizzato per l’addestramento dell’IA disallowando l’user agent Googlebot-Extended. Questo consente loro di continuare a essere indicizzati da Google Search mentre scelgono di non contribuire al miglioramento dei modelli di IA. È importante notare che bloccare Googlebot-Extended non impedisce che il contenuto venga incluso nell’Experience Generativa della Ricerca (SGE), che richiede di bloccare completamente Googlebot se si desidera farlo.
Caratteristica | Googlebot | Googlebot-Extended |
---|---|---|
Scopo | Scansiona e indicizza pagine web per la ricerca | Gestisce l’uso del contenuto per l’addestramento dell’IA |
Controllo User-Agent | Gestito tramite robots.txt e meta tag |
Gestito tramite robots.txt con token specifico |
Impatto sulla Ricerca | Influisce sull’indicizzazione e sul ranking | Non influisce sull’indicizzazione o sul ranking |
Coinvolgimento nei Modelli IA | Il contenuto può essere utilizzato per addestrare l’IA | Il contenuto può essere escluso dall’addestramento dell’IA |