Sitemap XML e robots.txt: guida semplice per non tecnici

La sitemap XML è un file che elenca tutti gli URL del tuo sito che vuoi far indicizzare da Google. Il robots.txt è un file che dice a Googlebot quali pagine non deve visitare. Insieme, questi due file controllano come e dove Google esplora il tuo sito. Configurati correttamente, accelerano l'indicizzazione e proteggono il crawl budget. Configurati male, possono bloccare pagine importanti o far indicizzare pagine che non dovresti mostrare nei risultati.

Cos'è la sitemap XML e perché serve

La sitemap XML è un file in formato XML che elenca tutti gli URL che vuoi far indicizzare, con la data di ultima modifica (lastmod) e la frequenza di aggiornamento (changefreq). Aiuta Google a scoprire pagine che potrebbero non avere link interni che le puntano, come pagine di categoria con pochi link dall'homepage, o articoli recenti non ancora linkati da altri contenuti.

La sitemap è particolarmente utile per: siti nuovi con pochi backlink (Google li scopre più lentamente), siti con molte pagine (100+) dove il crawl naturale potrebbe impiegare settimane, e siti con contenuti che cambiano frequentemente (blog, ecommerce) dove vuoi segnalare a Google le pagine aggiornate. La sitemap non garantisce l'indicizzazione — è Google a decidere cosa indicizzare — ma velocizza il processo.

Come creare e inviare la sitemap XML

WordPress: plugin Yoast SEO o Rank Math generano automaticamente la sitemap con aggiornamento in tempo reale
Next.js App Router: file sitemap.ts nella directory app genera la sitemap dinamicamente a build time
Siti statici: strumenti come xml-sitemaps.com o Screaming Frog la generano da un crawl
Dopo la creazione: invia la sitemap in Google Search Console > Sitemaps con URL completo
Aggiungi il riferimento nel robots.txt: "Sitemap: https://tuosito.it/sitemap.xml"

Una sitemap ben configurata in Search Console mostra quante URL ha inviato e quante Google ha effettivamente indicizzato. Se il gap tra URL inviati e URL indicizzati è grande (es. 500 inviati, 200 indicizzati), c'è un problema di qualità dei contenuti o tecnico che impedisce l'indicizzazione. Questo è un segnale diagnostico importante.

Cosa includere (e cosa escludere) dalla sitemap

Includi solo le pagine che vuoi indicizzare: homepage, pagine servizio, articoli blog, pagine di categoria rilevanti, landing page. Escludi: pagine con tag noindex (incoerenza grave), pagine di ringraziamento post-form, URL con parametri di tracking (es. ?utm_source=), aree riservate, pagine di login, pagine di errore 404. Includere pagine noindex nella sitemap crea un segnale contraddittorio che può confondere Google.

Cos'è il robots.txt e come funziona

Il file robots.txt risiede nella root del sito (es. miosito.it/robots.txt) ed è il primo file che Googlebot legge quando visita un sito. Usa direttive User-agent (a quale bot si riferisce la regola) e Disallow (quali percorsi non visitare). Esempio base: "User-agent: * \n Disallow: /admin/" blocca tutti i bot dall'area admin.

Importante: il robots.txt non protegge le pagine dalla visualizzazione diretta da browser. Un utente che conosce l'URL di una pagina bloccata da robots.txt può comunque visitarla. Il robots.txt impedisce solo la scansione da parte di bot obbedienti come Googlebot. Per nascondere contenuti sensibili, usa l'autenticazione a livello server.

Errori comuni nel robots.txt

Bloccare accidentalmente CSS o JS necessari al rendering (Google vede pagine vuote)
Bloccare la sitemap stessa con "Disallow: /sitemap.xml" (errore che vediamo spesso)
Usare robots.txt per "nascondere" pagine riservate invece dell'autenticazione server
Non includere la riga "Sitemap:" con l'URL completo della sitemap
Sintassi errata (spazi mancanti, case sensitivity sbagliata) che rende le direttive non valide

Il blocco accidentale di CSS e JavaScript è uno degli errori più gravi e più frequenti. Succede spesso dopo aggiornamenti di CMS o modifiche al robots.txt senza test. Googlebot non riesce a renderizzare la pagina correttamente e la vede come HTML grezzo senza stile. Verifica sempre con il Google Search Console URL Inspector che Googlebot possa accedere a tutti i file necessari al rendering.

Come verificare che robots.txt e sitemap funzionino

Google Search Console ha strumenti dedicati per entrambi. Il Tester robots.txt (nella sezione Impostazioni) permette di simulare come Googlebot accede a qualsiasi URL con le regole attuali del file. La sezione Sitemaps mostra quante URL hai inviato, quante sono state scoperte, quante indicizzate e gli eventuali errori per URL specifici.

Il URL Inspection Tool di Search Console è lo strumento più potente: mostra esattamente come Googlebot vede una pagina specifica, incluso lo screenshot del rendering, quali risorse ha scaricato e se ha potuto accedere correttamente a tutte le dipendenze (CSS, JS, immagini).

Sitemap per siti grandi: sitemap index e sitemap multiple

Una singola sitemap XML può contenere massimo 50.000 URL o 50MB. Per siti più grandi, usa una sitemap index: un file XML che punta a più sitemap separate (es. sitemap-articoli.xml, sitemap-prodotti.xml, sitemap-categorie.xml). Questo permette anche di inviare a Search Console sezioni separate e monitorare l'indicizzazione per tipo di contenuto.

Sitemap e robots.txt in Next.js: la configurazione consigliata

In Next.js 14+ con App Router, sitemap.ts e robots.ts nella directory app generano questi file automaticamente al momento della richiesta o al build time. Questo è il metodo che usiamo nella realizzazione siti web: la sitemap si aggiorna automaticamente quando aggiungi nuove pagine, il robots.txt è versionato nel codice sorgente e quindi controllato. La nostra agenzia SEO verifica questi file in ogni audit tecnico come prima attività.

Articolo a cura diMy Web Lab — Agenzia Web Milano

Siamo un team di designer e sviluppatori specializzati in SEO, Next.js e crescita digitale per PMI italiane. Costruiamo siti che portano traffico reale e clienti reali.

Lavora con noi →