Brute Force Learning

Visto che da qualche settimana si parla di Machine Learning, dopo le dichirazioni di Google, ho pensato di chiedere a Marco Varone un punto di vista aggiornato e quasi in tempo reale. Le mie domande in bold:

sei ancora dell’idea che non si arriverà alla singularity? a parte la complessità di “calcolo”, quali sono le differenze tra l’apprendimento del linguaggio in un bambino e una macchina?

assolutamente si, tutte le cose che spacciano per deep-learning vero sono interessanti e furbe ma non spostano in avanti di un centimetro la vera comprensione e replica dell’intelligenza. sono escamotage e nuovi sviluppi che non riescono a superare le barriere oggettive.

nota di simone: un punto di vista molto simile è stato descritto da Danny Sullivan

e quali sono le barriere oggettive?

non esiste una rappresentazione nemmeno approssimativa dei meccanismi cognitivi umani profondi, che è l’unico esempio pratico che abbiamo della comprensione e del ragionamento. tutto quello che vediamo in ambito machine-learning sono simulazioni molto semplificate di alcuni aspetti molto specifici

come manichini che fanno finta di camminare come gli esseri umani?

esattamente. analizzando il cervello misuriamo corrente elettrica e neuroni, senza avere una visione di insieme puntuale e coerente. E’ un po’ come con il DNA, conosciamo ogni elemento e ogni tanto riusciamo a capire un pezzettino ma sempre in modo staccato dal resto.

Alcuni filosofi sostengono che il cervello non possa capire se stesso. in cinquant’anni di ricerche sul funzionamento del cervello sappiamo quali aree del cervello si attivano, ma nessuno capisce perché quelle e non altre.

seconto te, partendo dalle sole parole (escludendo quindi segnali di navigazione su pagine sensibili, hashtag come si fa nel programmatic advertising) è possibile fare capire ad una macchina la differenza tra una intenzione e un bisogno?

Es. “comprare una macchina” potrebbe essere sia intenzione che bisogno. conoscere l’intenzione ha un valore di marketing, conoscere il bisogno ha una possibilità maggiore di consegnare risultati attendibili per quella ricerca.

Col modo attuale di interagire coi sistemi semantici, non più di tanto. Se l’interazione diventasse più articolata (vedi es. Siri e fratelli) allora si potrà fare di più. Perchè nel momento in cui riesci ad attivare un’interazione di alto livello… se il sistema può farti una domanda allora puoi dare interazioni sensate riferite all’istante. Facendo una domanda e interpretando una risposta, allora si potrà capire di più. Ad oggi è difficile fare quello che chiedi, partendo da una semplice richiesta e senza contesto e senza storia, lo vedo difficile. Un minimo di interazione col sistema sarà però molto frequente. così come tu hai aggiunto informazioni per spiegarmi la tua domanda, anche le macchine (ndr… ed i motori di ricerca?…) si comporteranno in questo modo, facendo proposte e domande per capire meglio. è sicuramente un’interazione più costosa di quella attuale ma è una direzione già tracciata ed è l’unico modo per distinguere tra intenzione e bisogno.

Vedi per esempio che anche windows 10 con cortana registra ogni azione dell’utente per allenarsi a dare risposte. E’ un dato di fatto che la maggior parte delle persone ha ormai accettato il messaggio che un po’ di informazioni private vanno condivise con le macchine per farle funzionare meglio .

sarebbe possibile far scegliere dinamicamente il peso dei vari segnali da un algoritmo basato sulla semantica… o al limite sul machine-learning?

secondo me inizialmente si avrebbe sicuramente un calo della precisione rispetto ai “mix” di segnali decisi da persone.

hai sentito parlare di questo rankbrain?

dicono che serve per aggregare le ricerche nuove che ricevono ogni giorno (circa il 15%)

A quanto vedo “da fuori” con rankbrain ottengono due obiettivi:

  • possono risparmiare tempo macchina (quindi soldi)
  • possono vendere a prezzo più alto l’associazione con la pubblicità.

scherzando, dico spesso che Google sta facendo le auto che si guidano da sole per portarti nei ristoranti che fanno pubblicità su adwords e poi nel negozio che ha sempre usato Google per farsi pubblicità.

è possibile fare un mix tra segnali “forti” (es. presenza di hashtag, navigazione dell’utente su pagine sensibili ecc.) e contenuto del testo? Cioè: come si può dare rilevanza a ciò che si capisce con la semantica?

per quanto riguarda la ricerca sul web per molti aspetti ci stiamo allontanando sempre di più dall’analisi semantica andando in direzione di tutti gli altri segnali. è sempre meno importante il contenuto. Per evitare lo spam del contenuto duplicato c’è un maggiore peso a segnali forti, pagine molto visitate, pagine fresche. la parte semantica sta facendo fatica a influire sui parametri di Google (i cosidetti segnali). e probabilmente Google preferisce dare maggiore peso a parametri comportamentali, di relazione rispetto a quelli di contenuto.

secondo te google, quando parla di “qualità del contenuto”, cosa si aspetta da noi?

wikipedia non fa concorrenza a google ed è un punto di atterraggio neutro. quando google risponde con wikipedia nessuno si lamenta e google non perde soldi e non viene accusato di aver linkato siti fasulli o truffaldini. il loro obiettivo è avere buoni contenuti, dove buoni significa… quando una ricerca non è di tipo operativo (quindi su ricerche “know” ) gli elementi di lavoro sono:

– ci sono infinità di siti che hanno informazioni simili
– ci sono siti che hanno contenuti piu aggiornati in quel topic. (e wiki cel’ha)
– google individua quelle poche pagine che si differenziano dalla massa di contenuto piu o meno simile.

prima lo facevano con un approccio che poi è stato rovinato dagli aggregatori. la qualità per loro è rappresentata da vettori di termini. la mia impressione guardandolo da fuori è che sulla parte di “know” google sta investendo molto meno e non vediamo particolari miglioramenti o salti in avanti da parte loro.

l’obiettivo che hanno è chiaro, vogliono siti con contenuti che “saltino fuori” rispetto alla media.

su temi molto trattati, molto comuni, funziona un qualche tipo di analisi semantica. Non funziona però su temi molto precisi. Correttamente google investe dove fa soldi, quindi sulla massa.

Secondo me google ha paura di facebook, perchè Fb ha accesso a una quantità di conoscenza personale sterminata a cui Google non può arrivare in alcun modo. Ci sarebbe spazio per un motore di ricerca per le conoscenze di nicchia ma servirebbe budget per finanziarlo e quindi è un cane che si morde la coda.

——–

Purtroppo sul più bello mi è finito il tempo. Ringrazio di cuore Marco per il tempo che mi ha dedicato e spero che questo post potrà diventare una tradizione consolidata, almeno una volta l’anno 🙂
Per l’anno prossimo annoto qui le domande che avrei fatto se avessi avuto tempo (se vi va potete provare a rispondere voi stessi):

4) L’ordine con cui i concetti vengono espressi è importante per definire il senso di una frase. Lo è anche per il contesto?
5) mi puoi fare alcuni esempi di ciò che è considerabile rumore, nella comprensione di una frase?
6) ricerca preventiva:

c’è qualcosa di concreto nei loro studi sulle previsioni delle prossime domande che farà un utente?
7) ti sei interessato dei filtri con cui facebook “pulisce” il news-feed degli utenti?

Limitless learning

simone
appassionato di seo, linked open data e ambiente