TF-IDF: significato e importanza per la SEO

Introduzione

In che modo i motori di ricerca stabiliscono quali sono i risultati migliori da offrire all’utente in relazione alla parola chiave (o alla stringa di ricerca) che ha digitato nella query?

La risposta del motore di ricerca consiste in una serie di operazioni che implicano, tra l’altro, l’analisi dei documenti presenti nell’indice, il loro confronto e la classificazione finale, attraverso precisi – e a volte complessi – metodi matematici che risiedono nell’algoritmo di ricerca, il quale determina l’insieme di regole di funzionamento del motore stesso.

Queste operazioni avvengono attraverso l’impiego di un “algoritmo nell’algoritmo”, conosciuto come TF-IDF.

TF significa: “frequenza del termine ricercato” (“term frequency”) mentre IDF sta per: “frequenza inversa del documento” – “inverse document frequency”).

Erroneamente si tende a pensare che il “lavoro” di elaborazione del motore di ricerca inizi successivamente ad ogni query inserita e che si ripeta nuovamente d’accapo, partendo da zero, ad ogni ricerca successiva, ma le cose non stanno così.

Co-occorrenze e ricerca semantica

A partire dall’aggiornamento Hummingbird (2013) Google ha privilegiato i risultati di ricerca più pertinenti, raffinando la selezione degli stessi e scandagliando in profondità i siti fino a selezionare le pagine ritenute più adeguate, invece di limitarsi, come faceva in passato, ad individuare solo il sito più adatto per offrire all’utente il riferimento generale della sua home page.

A partire da allora Google ha attuato nuovi principi di ricerca semantica con l’obiettivo di comprendere l’intento dell’utente, ovvero cosa egli stia realmente cercando, piuttosto che soffermarsi solo sulle mere parole chiave.

Se, ad esempio, facessimo una ricerca su Google inserendo la stringa “allevatore cani” il motore di ricerca ci restituirebbe i risultati che ritiene più pertinenti. Ma se, ancora non soddisfatti, decidessimo subito dopo di farne una seconda inserendo le parole “allevamento pastore tedesco”, il motore di ricerca non ripartirebbe da zero, considerando solo la nuova ricerca e dimenticando la precedente, al contrario, attraverso la ML (Machine Learning) valuterebbe tutte le ricerche fatte dall’utente nel corso della sessione allo scopo di determinare il suo intento di ricerca. In tal modo sarà maggiormente in grado di mettere a fuoco il senso della ricerca, restringendo il campo e selezionando risultati sempre più appropriati, fino ad offrire la risposta più pertinente.

Si parla in questo caso di co-occorrenza di parole chiave, ovvero gruppi di parole chiave simili che vengono cercati nel corso di una medesima sessione dell’utente.

Nel fare ciò Google non si basa semplicemente sulle parole chiave inserite, ma ragiona, piuttosto, in termini di “entità”, intendendo con tale termine “cose o concetti rappresentati linguisticamente da sostantivi”, nonché sulle relazioni tra le stesse, collegando poi il tutto alle parole chiave utilizzate.

Ecco perché si parla di ricerca semantica: Google va oltre le parole chiave, per individuare e comprendere il “senso” della ricerca stessa; il che evidenzia come il motore di ricerca sia in grado di valutare qualsiasi documento in base alla sua portata contenutistica, potendo distinguere tra contenuti di valore e contenuti non validi. Da qui l’importanza, sempre crescente, di creare contenuti di qualità che abbiano una valenza reale per il lettore, che risolvano un problema, che informino, che, insomma, siano realmente utili. Il vecchio adagio “il contenuto è il re” vale oggi più che mai.

Ma nel mare magnum di pagine web e di termini presenti in miliardi di documenti on line, come fa Google a capire quali sono i migliori? E’ a questo punto che entra in giorno l’algoritmo TF-IDF.

L’algoritmo TF-IDF

TF-IDF è un algoritmo di estrazione di un testo (parola chiave) da una base dati, utilizzato nel campo della IR (Information Retrieval) e del Data Mining.

Il concetto di IDF risale al 1957, data in cui lo studioso Hans Peter Luhn avviò la sua ricerca, e, in seguito, fu modellato prima da S. Jones nel 1972 e poi da Salton nel 1975, il quale aggiunse il componente TF, perfezionando, così l’algoritmo.

Lo scopo dei ricercatori era quello di riuscire ad identificare, partendo da uno specifico termine di ricerca, il risultato più efficace estrapolandolo da un paniere di documenti.

Il metodo si basa sull’assunto che se il termine ricercato “K” è presente in tutti i documenti, l’efficacia del processo di ricerca sarà scarsa in quanto il termine è eccessivamene condiviso. Al contrario, la ricerca sarà efficace nel caso opposto, quando cioè il termine viene identificato in pochi contenuti.

Il primo problema consisteva, dunque, nel cercare di individuare tutti i termini condivisi privi di rilevanza semantica specifica: ovvero le c.d. “stop words”. Le stop words sono parole prive di un significato specifico, se considerate individualmente ed isolate dal contesto del documento, e consistono, prevalentemente, in articoli, preposizioni e congiunzioni. Sebbene di nessuna utilità ai fini della ricerca, questi termini sono quelli più presenti e ripetuti in tutti i documenti e finiscono per costituire una mole gigantesca di dati. Ignorare questi termini è essenziale per il motore di ricerca, che opera, in tal modo, una prima esclusione, potendo concentrarsi sui termimi rimanenti, deputati ad essere analizzati nella fase successiva.

Il calcolo del TF è relativamente semplice: per calcolare il numero di occorrenze (O) del termine K nel documento X (Ok,x) basterà verificare la quantità di parole che compongono il documento X (Dx) per calcolare l’incidenza del valore TF.

TF = Ok,x / Dx

Assumendo che il documento X sia composto da 100 parole e che l’incidenza delle occorrenze sia 10 avremo un valore TFk,x pari a 0,10.

La TF indica la frequenza del termine K nel testo considerato e la sua rilevanza nell’ambito del documento in base alla sua incidenza.

A questo punto entra in scena il secondo fattore, ovvero l’IDF, il quale svolge la funzione di mettere a confronto la parola analizzata con tutti gli altri documenti del database. Nel caso di un motore di ricerca come Google, pertanto, si tratterà di confrontare la rilevanza della pagina web che ospita il termine K con tutte le altre pagine web dell’intero indice dei risultati. Questo confronto è determinante per stabilire l’idoneità del documento analizzato a comparire, oppure no, in testa alla graduatoria dei risultati di ricerca determinandone la posizione esatta del ranking.

L’IDF viene analizzato con la seguente formula:

IDF = log N / nk

Per fare un esempio, se il termine K fosse presente in 3 documenti su 100 (N=100), allora il valore dell’IDF sarà di 1,3. Se, invece, il termine di ricerca K fosse contenuto in tutti e 100 i documenti della base dati (Nk=100) allora il valore di IDF sarebbe equivalente a 0 (Log 1=0).

La TF-IDF esamina l’importanza di ogni parola chiave presente in ogni pagina e, dopo averla confrontata con tutte le pagine “concorrenti”, attribuisce il relativo valore di indicizzazione che stabilisce in quale posizione esatta la pagina che ospita la parola chiave sarà visualizzata nei risultati di ricerca.

Keyword density

Molto spesso capita di confondere la TF con la “keyword density”.

Chi lavora da anni nell’ambito SEO non può non conoscere questo termine, attorno al quale, in passato, si sono schierate diverse scuole di pensiero.

Il concetto di keyword density è molto semplice: la “densità” della parole chiave può essere calcolata dividendo il numero di volte che la parola chiave appare per il numero totale di parole della pagina. Il risultato viene poi moltiplicato per 100.

Così, ad esempio, se un post del blog ha 1.000 parole, e una parola chiave appare dieci volte, l’articolo avrà, conseguentemente, una densità di parole chiave dell’1%.

L’idea di base è che se si prende quel blog e lo si mette a confronto con un altro con un punteggio di densità di parole chiave del 2%, questo primeggerà nei risultati di ricerca di Google in vrtù della sua superiore densità.

Proprio la conoscenza di questo fattore ha portato i webmaster più avventati a mettere atto sovraottimizzazioni delle pagine basate sulla densità (keyword density) in modo esagerato. Molti specialisti SEO, in sostanza, hanno ritenuto di poter “ingannare” il motore di ricerca semplicemente inserendo ripetutamente (a volte in modo ossessivo e spudorato) le parole chiave nelle loro pagine. E per un certo periodo ci sono anche riusciti, fino a quando Google è corso ai ripari contrastando questa pessima tecnica che oggi è conosciuta come “keyword stuffing” ed è contraria alle linee guida di Google, per cui i webmaster farebbero bene a starne alla larga.

Oggi la densità delle parole chiave è molto meno importante di un tempo. L’attuale focus per gli esperti di SEO, non è  la densità quanto, piuttosto, la ricerca semantica.

Infatti, i risultati della ricerca di Google sono cambiati completamente. Prima del passaggio di Google alla ricerca semantica, ogni volta che si digitava una query del tipo: “quanto è grande un elefante?” il motore di ricerca cercava di far corrispondere le parole chiave specifiche della frase “quanto è grande”, e restituiva le pagine web con quelle esatte parole chiave. Il risultato? Prima di trovare la risposta consona alla query si dovevano sfogliare pagine e pagine di risultati contenenti quella medesima frase in modo del tutto scollegato dal significato della domanda posta.

La ricerca semantica cerca di capire cosa l’utente voglia e, per questo, offre la migliore esperienza di ricerca possibile.

In parole povere, la missione di Google è chiara: organizzare le informazioni per renderle universalmente accessibili e utili.

Come utilizzare TF-IDF per migliorare i contenuti ai fini della SEO

I valori di TF-IDF possono essere usati a proprio vantaggio per migliorare i contenuti SEO. Un corretto uso può portare a questi risultati:

  • Identificare i termini che compaiono frequentemente, il contesto in cui appaiono e le relazioni tra queste parole chiave;
  • Acquisire un modo per identificare e poi aggiungere le parole chiave e termini correlati al post;
  • Scrivere e pubblicare contenuti in ottica SEO;
  • Verificare la pertinenza dei contenuti pubblicati;
  • Ottimizzare pagine in base agli argomenti trattati, piuttosto che in base alle parole chiave;
  • Identificare eventuali lavune nella pagina;
  • Acquisire posizionamenti migliori;
  • Valorizzare le pagine pubblicate che stanno perdendo posizioni nel tempo;
  • Rinforzare pagine che faticano a posizionarsi in modo ottimale – come – ad esempio – le pagine dei prodotti degli e-commerce.

L’analisi TF-IDF può aiutare ad individuare contenuti correlati che sono assenti, trascurati o poco approfonditi, nonché analizzare come i diretti concorrenti affrontano il tema trattato concentrandosi sulle parole chiave che utilizzano nonché come trattano il tema e con quali risultati di posizionamento SEO.

Per rispondere ad una domanda frequente che sorge spontanea quando si tratta dell’argomento TF-IDF: un accurato lavoro ed ottimizzazione TF-IDF è sufficiente a garantire alla pagina che si vuole posizionare il raggiungimento della visibilità sperata? La risposta è no: ovvero, la sola TF-IDF di per sé non è sufficiente, in quanto il complesso algoritmo di Google tiene in considerazione molti altri fattori, tra cui, ad esempio, l’anzianità del sito, la sua “autorità” (DA Domain authority – DR Domain rating – DT Domain trust), l’autorevolezza della pagina che ospita la parola chiave (PA Page authority) e, ancora, altrti fattori come gli accessi al sito e alla pagina, la velocità di caricamento, il TF Trust flow ecc.

E’ chiaro, tuttavia, che tra i fattori da considerare quando si opera ai fini SEO, il fattore TF-IDF è fondamentale per creare contenuti ideali, ben scritti, trattati e documentati, che piacciono sia ai lettori che ai motori di ricerca e che, quindi, possiedono qualità intrinseche che favoriscono un migliore posizionamento.

TF-IDF: tools

I siti, in genere, sono composti da decine, centinaia e, spesso, anche migliaia di pagine web.

L’ottimizzazione del valore TF-IDF non implica che il lavoro di analisi deba necessariamente estendersi su tutte le pagine del sito. Sarà più che sufficiente, infatti, focalizzarsi sui contenuti “strategici”, quelle pagine, cioè, che trattano i temi (e che contengono le relative parole chiave) con i quali si desidera ottenere il miglior posizionamento.

Il lavoro non va fatto manualmente (sarebbe difficile), quindi mettete pure a posto la calcolatrice tascabile: esistono appositi tools on line, gratuiti o a pagamento, che vi permetteranno di padroneggiare la materia.

Tra i tools TF-IDF più utili indichiamo:

  • SEObility (https://www.seobility.net/en/tf-idf-keyword-tool/ ) offre uno strumento TF-IDF  gratuito (include – al momento in cui si scrive – 3 analisi al giorno, 5 con iscrizione gratuita e 50 con il piano premium). Lo strumento permette di modificare il testo in modo diretto mediante un apposito editor che consente di ottimizzare i contenuto seguendo gli appositi suggerimenti;
  • TFIDF Tool (https://tfidftool.com/ ) è un tool a pagamento che permette di analizzare le parole chiave, le URL delle pagine, o i contenuti stessi da incollare nell’editor messo a disposizione.
  • Ryte (https://en.ryte.com/lp/wdf/ ) strumento con iscrizione gratuita che consente un massimo di 10 analisi al mese, che comprendono consigli sulle parole chiave e ispirazioni per l’aggiunta di altri argomenti. Anche Ryte include un editor di testo per l’ottimizzazione guidata dei contenuti.

Parlaci del tuo progetto