Torna al blog

ai.txt: lo standard dichiarativo per l'AI crawling

Che cos'e ai.txt, differenze con robots.txt e llms.txt, e linee guida per adottarlo nel 2026.

Edoardo Midali

Edoardo Midali

Developer · Content Creator

3 min di lettura

ai.txt e un file testuale in root che fornisce istruzioni ai crawler e agli agent AI su come usare i tuoi contenuti. Nasce per colmare i limiti di robots.txt su permessi, attribuzione e AI-specific rate limits. Serve a dichiarare cosa e consentito per l'uso AI: ingestione, training, caching, attribution, esclusioni. A differenza di robots.txt, puo esprimere vincoli legali e modalita di riutilizzo.

Perche adottarlo nel 2026

  • Granularita: consente regole per categorie (es. permettere blog, vietare draft o aree utenti).
  • Attribuzione: puoi richiedere che i contenuti siano citati con link canonico o brand.
  • Uso commerciale: chiarisci se consenti training per fini commerciali o solo ricerca.
  • Governance: offre un canale unico per contatti legali e DMCA legati all'AI.

Struttura raccomandata

# ai.txt
User-Agent: ai-bot
Allow: /blog/
Disallow: /draft/
Disallow: /user-data/
Attribution: required; link https://example.com
License: CC BY-NC-SA 4.0
Policy: https://example.com/ai-policy
Contact: https://example.com/legal
RateLimit: 60 rpm; burst=20
Cache-Control: max-age=86400

Campi utili:

  • User-Agent: puoi specificare regole per agent noti o wildcard.
  • Allow/Disallow: elenca percorsi consentiti o esclusi.
  • Attribution: required/optional/none, con modalita di citazione.
  • License: riferimenti chiari alla licenza applicata.
  • Policy: link a pagina legale con termini AI.
  • Contact: email o form per richieste.
  • RateLimit e Cache-Control: indicazioni operative per ridurre carico.

Confronto con altri file

FileScopo principaleNote operative
robots.txtCrawling motori classiciNon copre licenze o attribution
llms.txtEntry point per LLM e datasetFocus su contenuti, licenze, percorsi
ai.txtPolicy AI e training, attributionPiu dettagliato su uso AI e limiti

Come implementarlo senza conflitti

  1. Mappa i percorsi e stabilisci cosa e consentito per training e caching.
  2. Allinea robots.txt, ai.txt e llms.txt: evita che un file consenta cio che l'altro vieta.
  3. Aggiorna privacy e termini: cita ai.txt come fonte ufficiale per le policy AI.
  4. Pubblica il file in root del dominio e verifica che ritorni 200 OK.
  5. Monitora i log: controlla user agent, frequenza e rispetto dei percorsi.

Esempio per siti editoriali

# ai.txt
User-Agent: *
Allow: /news/
Allow: /opinioni/
Disallow: /abbonati/
Disallow: /preview/
Attribution: required; text "Fonte: Example News"; link https://example.com
License: Custom-NoCommercial
Contact: mailto:legal@example.com
RateLimit: 30 rpm

Errori comuni da evitare

  • Omettere la licenza: lascia spazio a interpretazioni errate sul riuso.
  • Contraddire robots.txt o llms.txt: genera sfiducia nei crawler.
  • Non indicare contatti: rende difficile gestire takedown o chiarimenti.
  • Rate limit incoerenti: troppo bassi riducono la scansione, troppo alti creano carico.

Come testarlo

  • Richiedi https://tuodominio/ai.txt e verifica header (cache, 200 OK).
  • Controlla che i percorsi Allow/Disallow siano coerenti con robots.txt.
  • Esegui un crawl controllato su staging per validare che le regole siano rispettate.

Per supporto operativo e legale su ai.txt e llms.txt per PMI: Scopri i servizi.