Come utilizzare il tag meta robots in modo efficace?

Le meta direttive dei robot, chiamate anche meta tag dei robot, sono costituite da piccoli pezzi di codice che forniscono istruzioni ai robot riguardo alla scansione e all'indicizzazione del contenuto della pagina di un sito web. A differenza dei consigli offerti nel file robots.txt, questi tag forniscono indicazioni più precise ed esplicite su come eseguire la scansione e l'indicizzazione del contenuto di una pagina specifica.

A cosa servono questi meta tag robots?

I tag Meta robots forniscono istruzioni ai crawler su come scansionare e indicizzare le informazioni trovate su una pagina web specifica. Una volta scoperte, queste direttive agiscono come forti suggerimenti sul comportamento di indicizzazione dei crawler. Tuttavia, analogamente alle istruzioni contenute nel file robots.txt, i crawler non sono obbligati a seguire queste linee guida e i bot dannosi potrebbero ignorarle e accedere al contenuto della pagina senza autorizzazione.

È importante notare che i tag meta robots non dovrebbero essere considerati esclusivamente come meccanismo di sicurezza. Per le informazioni private che non dovrebbero essere disponibili pubblicamente, si consiglia di utilizzare approcci più sicuri come la protezione tramite password per impedire l'accesso non autorizzato da parte di visitatori e crawler.

Come utilizzare il tag meta robots in modo efficace
Come utilizzare il tag meta robots in modo efficace


I 2 tipi di meta tag robots

Il concetto che viene trasmesso è che esistono due tipi di beacon:

  • Quelli che fanno parte della pagina HTML, comunemente chiamati "robot", e
  • Quelli che vengono trasmessi dal server web tramite intestazioni HTTP, comunemente note come "x-robots-tag".

Vale la pena notare che entrambi questi tipi di beacon possono utilizzare parametri simili come "noindex" e "nofollow". L’unica variazione sta nel modo in cui questi parametri vengono trasmessi ai robot.

tag meta robot

Il meta tag robots è un componente cruciale del codice HTML di una pagina web, che di solito si trova nella sezione <head> della pagina web. È rappresentato attraverso elementi di codice come:

<meta name="robots" content="[PARAMETER]">.

Se desideri fornire istruzioni specifiche a un particolare crawler, puoi sostituire "robot" con il nome dello user agent desiderato.

Se ad esempio vuoi dare delle direttive specifiche a Googlebot puoi utilizzare il seguente codice:

<meta nome="googlebot" content="[PARAMETER]">.

Puoi includere più direttive in un singolo meta tag, separate da virgole, purché si applichino allo stesso crawler.

Ad esempio, questo codice:

<meta name="robots" content="noimageindex, nofollow, nosnippet">

indica ai robot di non indicizzare le immagini sulla pagina, di evitare di seguire eventuali collegamenti e di non visualizzare estratti di pagina nei risultati di ricerca.

Tuttavia, se desideri fornire istruzioni diverse a diversi crawler di ricerca, sono necessari tag separati per indirizzare ciascun crawler.

Faro X-Robots

Il tag x-robots è un modo per controllare il modo in cui una pagina e i suoi elementi specifici vengono indicizzati dai motori di ricerca. Fa parte dell'intestazione HTTP e ha più funzionalità e flessibilità rispetto al tag meta robots, che viene utilizzato nel codice HTML della pagina.

Con il tag x-robots puoi utilizzare espressioni regolari, applicare regole di indicizzazione a file non HTML e impostare parametri globali. Per utilizzarlo, devi accedere al file header.php, .htaccess o al file di accesso al server del tuo sito web e aggiungere il markup x-robots-tag con i parametri desiderati per la configurazione del server. Alcuni esempi di cosa puoi fare con il tag x-robots sono:

  1. Controlla il modo in cui vengono indicizzati i contenuti non HTML (come i video).
  2. Impedisci l'indicizzazione di un elemento specifico di una pagina (come un'immagine o un video), ma non dell'intera pagina.
  3. Gestisci l'indicizzazione se non riesci ad accedere o modificare il codice HTML di una pagina (in particolare la sezione <head>) o se il tuo sito utilizza un'intestazione comune non modificabile.
  4. Crea regole per decidere se una pagina deve essere indicizzata o meno (ad esempio, indicizza la pagina del profilo di un utente che ha commentato più di 20 volte).

Quali sono le impostazioni dei tag del robot?

Di seguito sono riportati i diversi parametri che i crawler dei motori di ricerca comprendono e seguono quando utilizzati nei meta tag robots. Tieni presente che sebbene questi parametri non facciano distinzione tra maiuscole e minuscole, alcuni motori di ricerca potrebbero non seguirli tutti o trattarli in modo diverso.

  • Tutto: questo è il tag predefinito e indica al motore di ricerca di indicizzare la pagina.
  • Segui: anche questo è un tag predefinito e indica al crawler di seguire tutti i collegamenti sulla pagina e trasferire l'equità alle pagine collegate.
  • Noindex: questo tag indica ai motori di ricerca di non indicizzare la pagina, ma i collegamenti in essa contenuti saranno comunque seguiti dal crawler. Ciò è utile per le pagine con contenuti a pagamento o per prevenire sanzioni relative ai contenuti duplicati.
  • Nofollow: questo tag indica al crawler di non seguire i link sulla pagina e di non trasmettere la link equity. È utile per impedire agli spammer di sfruttare i tuoi contenuti.
  • None: questo tag equivale a utilizzare insieme i tag noindex e nofollow e indica al crawler di ignorare completamente la pagina.
  • Noimageindex: questo tag indica al crawler di non indicizzare le immagini sulla pagina, proteggendole dall'utilizzo senza autorizzazione.
  • Noarchive: questo tag impedisce ai motori di ricerca di visualizzare un collegamento memorizzato nella cache della pagina ed è utile per proteggere i contenuti sensibili.
  • Overnight: questo tag è simile a noarchive ma viene utilizzato solo da Internet Explorer e Firefox.
  • Nosnippet: questo tag indica ai motori di ricerca di non visualizzare un estratto della pagina nei risultati di ricerca ed è utile per controllare i metadati visualizzati.
  • Max-snippet: [numero]: questo tag indica al crawler il numero specifico di caratteri da mostrare negli snippet SERP e si applica a tutti i tipi di risultati di ricerca ad eccezione dei dati strutturati.
  • Unavailable_after [DATA e ORA]: questo tag indica ai motori di ricerca di non indicizzare la pagina dopo una data particolare.
  • Notranslate: questo tag impedisce a Google di visualizzare un collegamento al contenuto tradotto della pagina nei risultati di ricerca.
  • Max-image-preview: [PARAMETER]: questo tag imposta la dimensione massima dell'anteprima dell'immagine per la pagina nei risultati di ricerca.

Sono accettati tre valori:

Le opzioni per visualizzare le anteprime delle immagini nelle pagine AMP sono le seguenti: "nessuna" che significa che non verrà mostrata alcuna immagine di anteprima, "standard" che visualizza un'immagine di anteprima predefinita e "grande" che mostra un'immagine di anteprima più grande. Scegliendo l'opzione "standard" o "nessuna" è possibile evitare la visualizzazione di miniature di grandi dimensioni nei risultati di ricerca per le pagine AMP.

Come evitare 3 errori comuni quando si utilizzano i meta tag robots

Evita questi tre errori per migliorare il tuo SEO utilizzando i meta tag robots:

Tre errori SEO comuni commessi dai proprietari di siti Web riguardano la tipografia, i tag in conflitto e la confusione tra i comandi "noindex" e "disallow".

  1. Innanzitutto, è importante utilizzare tag minuscoli e includere virgole e spazi per una migliore leggibilità e facilità di comprensione. Mentre i crawler possono riconoscere attributi e parametri sia in maiuscolo che in minuscolo, l'utilizzo di tag minuscoli può migliorare la leggibilità del codice.
  2. In secondo luogo, l'utilizzo di tag in conflitto può portare a errori di indicizzazione. I crawler tendono a favorire valori più restrittivi, quindi se sono presenti più meta tag con valori in conflitto, verrà preso in considerazione quello più restrittivo. Per impedire il tracciamento, è meglio utilizzare il tag "nofollow" invece del tag "follow" predefinito.
  3. Infine, è importante comprendere la differenza tra i comandi "noindex" e "disallow". "Noindex" impedisce ai robot di indicizzare una pagina, mentre "disallow" impedisce loro di scansionarla. Per impedire la scansione di una pagina, utilizza il comando "disallow" nel file robots.txt. Per annullare l'indicizzazione di una pagina, aggiungi i comandi "noindex" e "disallow" all'intestazione della pagina.
Nuova Vecchia