Sentiment on Google. Se parli male lo capisce e se lo fai apposta ti sculaccia?

sentimentLa novità dell’anno è confermata da Google Blog: l’analisi del sentiment è già tra i risultati, e Google “capisce” se il parere di chi scrive è positivo o negativo riguardo all’oggetto della discussione.

Io invece non capisco se decideranno di togliere rilevanza ai contenuti dei Troll che mal-recensiscono prodotti solo per aumentare i ClickTrough “istintivi” in SERP.

Di certo Google sostiene di poter sgamare le campagne denigratorie di chi va in cerca di link generati da uno scandalo costruito appositamente. E se fai il cattivo Google ti punisce perchè fai male al business di tutti.

Per chi non mastica nel settore: l’analisi del sentiment sono in tanti a farla già da tempo, tipo

  • web distilled legge il sentiment dei social network da un anno e passa
  • truthy capisce se gli account di twitter sono stati creati apposta per spammare (e lo disegna in modo che anche tu lo possa capire)
  • mia nonna la mattina capisce il mio sentiment nei primi 10 secondi solo guardandomi in faccia e senza bisogno di sentire parole, ci prende nel 70% dei casi
  • Bing non se lo caga nessuno (non c’entra niente, c’è anche chi prova a dimostrare il contrario)

Sempre per rimanere nella metafora, è anche vero che qualsiasi scorreggia di G**gle sposta più traffico di un tornado. Io non avrei voluto usare il termine “scoreggia” non avrei voluto neanche ripeterlo, ma sto facendo esperimenti sulla percezione di LDA da parte di Google, quindi perdonatemi.

Se non hai voglia di sapere cosa significa LDA cioè l’ennesima sigla SEO

Riassunto: LDA è la possibilità di “capire” il contesto di una parola capendo i contesti delle parole attorno. Che una macchina possa farlo è indubbio, che si possa anche prevedere di centrare il contesto giusto per tutte le prossime ricerche che un utente farà, è un altro paio di maniche. Che Google ci abbia messo 2 anni per capire che questo sito riguarda più il goatse che il seo, è un fatto, cioè FACT! Come anche è un fatto che Google abbia ancora problemi nel dicembre 2010 a capire cosa è contenuto e cosa è una pagina di disambiguazione, me lo trovo di fronte tutti i giorni quando controllo come mi posiziono in SERP sulla parola chiave “SEO”.

Sorgenti per questo articolo

  • tutte le maggiori modifiche pubbliche all’algoritmo di Google 2010 (inglese, aggregatore che sembra SPAM ma non lo è)
  • lo stesso link di prima incollato da una blogger indiana mi ha fatto sudare per cercare di capire quale delle due versioni dello stesso testo linkare su questa pagina per beccarmi un po’ di figosità da parte del motore di ricerca.
  • coding horror a cui ho fregato l’immagine e che poverino non è capace di togliere lo SPAM dai commenti

domande che mi faccio oggi

  • i motori di ricerca dovranno premiare nei risultati anche i siti che sperimentano pubblicando concetti rari? (non è una domanda retorica, spesso viene premiato il contenuto di un sito solo dopo che viene riconosciuto pubblicamente come qualcosa di valore, via mole di link, via figosità dei link, via saggezza di google che guarda indietro negli archivi storici.
  • Come definire il valore di un concetto che non ha contenuti a poterlo definire? E’ un po come cercare di assegnare valore a qualcosa che non si ha capito, noi uomini lo facciamo in continuazione quando sentiamo parlare i politici.
  • Google si metterà anche a fare la bilancia di ciò che è giusto e ciò che è sbagliato sapere? (che cosa sia sbagliato sapere, me lo chiedo da qualche mese ormai)
  • Google si metterà a fare la bilancia tra i bisticci degli uomini che avvengono sul web? In pratica, dando visibilità hai anche una censura costante su tutto ciò a cui scegli di non dare visibilità.

Addio prima pagina! Ritorno al futuro del web semantico = *cheppalle (per ora)

nerdgranny* Quando scrivi un articolo su internet è importante non usare parole troppo comuni, la gente e i motori di ricerca potrebbero pensare che non hai niente di nuovo da dire.
(consiglio gentile offerto da NerdGranny)

Si parla di web semantico senza costruirlo, da anni. Per ora gli unici strumenti concreti sono i temi e plugin RDFa di WordPress e dopo 5 anni dal boom di WordPress (forse anche dato dalla iniziale propensione di Google per la semantica applicata bene) in generale nessuno si sta preoccupando di costruire strumenti tecnici amichevoli (ad esempio WordPress è amichevole) per la gestione dei contenuti che ci possano aiutare a duellare con cosa succederà domani sul web, visto che stiamo vendendo così bene su AdWords (anche se aimè costicchia) molti si sono adagiati sui soldi. Questa qui sotto è una mappa concettuale interessante che collega i tormentoni del web alle tecnologie relative che stiamo usando negli anni per accedere alle informazioni.

mappa tecnologico semantica di radar networks & nova spivack

seorobot“WEB 4.0?! EEE”H MA CHE CAZZO DICI?”

Questo intervento maleducato vi è offerto da SEO ROBOT

A seconda della tecnologia che i web content editor usano, le informazioni che vanno a mettere disponibili sulla rete possono essere trovate con i motori di ricerca o con i social networks o coi tool di aggregazione semantica di ricerche legate ai contenuti (come diceva Giacomo Pelagatti al SEOCamp2010, anche Youtube è un search media).

I collegamenti tra le basi di dati

Sul web tutto quello che noi umani ancora non vediamo, è il modo in cui i dati si mescolano e vengono prelevati dalle macchine che poi usiamo per cercare altri dati. Questo tra l’altro è anche uno dei motivi per cui mi sono interessato di SEO, cioè la branca pratica di applicazione di concetti complessi riguardanti il ritrovamento di informazioni sulla rete. Richiamo dalla memoria la presentazione di Christian Morbidoni a FammiSapere2010 per parlare un po’ del livello di interconnessione tra le basi di dati, che si lega al significato che ogni base di dati porta con se.

complessita dati slides di Christian Morbidoni

Da queste due slides piene di freccie dai significati mutevoli e poco didattici si capisce fondamentalmente una cosa: che sul web il livello di complessità aumenta. La difficoltà nella nostra percezione di cosa è informazione e cosa è rumore aumenta solo se usiamo lo stesso metro di giudizio per desumere informazioni tra due insiemi di dati che a causa della crescente complessità diventano disomogenei tra loro. Lo stato del web attuale che identifica l’aumentare della complessità come parametro di valutazione della rete stessa si potrebbe anche legare ad un altro metro di giudizio soggettivo, la produttività nella raccolta di informazioni:

limiti teorici della ricerca di informazioni con l'uso di parole chiave

Da questa vecchia slide di Nova Spivack capiamo il suo punto di vista sulla produttività della “ricerca tramite motori di ricerca tradizionali” che cala all’aumentare della complessità di informazioni non strutturate presenti sul web, e che invece aumenta nel momento in cui il motore di ricerca inizia a “percepire” anche concetti semantici. Sappiamo ormai che Google con la semantica va a braccetto da anni, anche nel 2008 quando Nova Spivack ha fatto il suo speech (qui un bel commento di Jesse Farmer). Per il momento questo declino della produttività relativo alle keywords sui motori di ricerca non mi sembra sia ancora avvenuto, tuttavia è un futuro plausibile. L’unico che mi viene in mente è Cesarino Morellato, quando al SEOCamp2010 ci diceva (qui lo streaming) il suo punto di vista molto simile riguardo al declino delle parole chiave (senza dirmi però dove andrò a lavorare 😉 ).

il futuro del SEO è già un po’ qui.

Il mio punto di vista, è abbastanza chiaro e meta-comunicato nella presenza stessa di questo post: credo sia importante dare risalto alla trasparenza nel comunicare cose che sappiamo e dare i crediti pubblicamente, il motore di ricerca indicizza, le persone scelgono, i social network danno un contesto fornendo spesso link da persona a persona.

C’è ancora moltissima strada da fare anche solo per capire come taggare informazioni a livello macchina, quali plugin per WordPress usare magari (ad esempio WP-RFDa è interessante ma rompe il mio template). Più mi addentro nella ricerca del “senso” leggendo libri su linguistica, semantica e retorica e più mi sembra di tornare a Torino, al centro del crollo demografico quando facevo i corsi di doppiaggio da Ivo, mentre trovavo una città enorme, placida e vuota in cui tutta la storia del regno d’Italia era già stata scritta e non c’era nessuno per la strada con cui parlarne. Già che ci sono nel titolo ho dato anche l’addio alla prima pagina, visto che da una settimana Google si è accorto che questo sito non è più quinta risorsa in italia per chi sta cercando SEO, e quindi anche per me è tempo di evolvere.

Esperimenti di integrazione di RDF

infografico della tecnologia per il web semantico

Come è chiaro che gli infografici avranno una parte essenziale nella divulgazione di dati complessi, così questo disegno che ho messo ci spiega che in realtà qualcuno a fare un web semantico ci sta provando davvero: metto qui sotto qualche link a progetti scaricabili per integrazioni di semantiche a database di contenuti (cioè oggi WordPress e Drupal)

Ambiti corporate:

Il riassuntone per chi non ha voglia di leggere tutto il post

Nell’eterna lotta tra piccoli siti web e mega siti commerciali, solo WP e Drupal aiutano i non-tecno-maniaci, e anche se  si adoperano per metterci nelle condizioni di pubblicare semanticamente, la sensazione è che tanti piccoli siti web cerchino di dare significato alla loro esistenza, permettendo l’aggregazione pubblica di collegamenti ed esistenza di rapporti tra un sito e l’altro. Un utente Facebook che decidesse di rendere pubbliche questo genere di informazioni sui suoi rapporti col mondo poteva farlo anche 2 anni fa, senza problemi, senza menate tecnologiche, anche se firmando per la cessione di ogni suo contenuto inglobato dal social network.

Ovviamente farselo in casa ha un sapore migliore. Tra l’altro anche la BBC si adopera per entrare in modalità semantiche.

Fonti usate per questo articolo

Aggiornamenti 2014

query semantica

Knowledge graph e vault

Dopo Knowledge graph, nel quale google mostra in SERP alcuni dati strutturati presi principalmente da Freebase e Wikipedia, ora arriva Knowledge Vault (qui un articolo con qualche approfondimento) che dovrebbe essere in grado di dare risposte alle domande degli utenti con un certo grado di approssimazione (quindi darà anche risposte errate).