ai.txt: lo standard dichiarativo per l'AI crawling

ai.txt e un file testuale in root che fornisce istruzioni ai crawler e agli agent AI su come usare i tuoi contenuti. Nasce per colmare i limiti di robots.txt su permessi, attribuzione e AI-specific rate limits. Serve a dichiarare cosa e consentito per l'uso AI: ingestione, training, caching, attribution, esclusioni. A differenza di robots.txt, puo esprimere vincoli legali e modalita di riutilizzo.

Perche adottarlo nel 2026

Granularita: consente regole per categorie (es. permettere blog, vietare draft o aree utenti).
Attribuzione: puoi richiedere che i contenuti siano citati con link canonico o brand.
Uso commerciale: chiarisci se consenti training per fini commerciali o solo ricerca.
Governance: offre un canale unico per contatti legali e DMCA legati all'AI.

Struttura raccomandata

# ai.txt
User-Agent: ai-bot
Allow: /blog/
Disallow: /draft/
Disallow: /user-data/
Attribution: required; link https://example.com
License: CC BY-NC-SA 4.0
Policy: https://example.com/ai-policy
Contact: https://example.com/legal
RateLimit: 60 rpm; burst=20
Cache-Control: max-age=86400

Campi utili:

User-Agent: puoi specificare regole per agent noti o wildcard.
Allow/Disallow: elenca percorsi consentiti o esclusi.
Attribution: required/optional/none, con modalita di citazione.
License: riferimenti chiari alla licenza applicata.
Policy: link a pagina legale con termini AI.
Contact: email o form per richieste.
RateLimit e Cache-Control: indicazioni operative per ridurre carico.

Confronto con altri file

File	Scopo principale	Note operative
robots.txt	Crawling motori classici	Non copre licenze o attribution
llms.txt	Entry point per LLM e dataset	Focus su contenuti, licenze, percorsi
ai.txt	Policy AI e training, attribution	Piu dettagliato su uso AI e limiti

Come implementarlo senza conflitti

Mappa i percorsi e stabilisci cosa e consentito per training e caching.
Allinea robots.txt, ai.txt e llms.txt: evita che un file consenta cio che l'altro vieta.
Aggiorna privacy e termini: cita ai.txt come fonte ufficiale per le policy AI.
Pubblica il file in root del dominio e verifica che ritorni 200 OK.
Monitora i log: controlla user agent, frequenza e rispetto dei percorsi.

Esempio per siti editoriali

# ai.txt
User-Agent: *
Allow: /news/
Allow: /opinioni/
Disallow: /abbonati/
Disallow: /preview/
Attribution: required; text "Fonte: Example News"; link https://example.com
License: Custom-NoCommercial
Contact: mailto:legal@example.com
RateLimit: 30 rpm

Errori comuni da evitare

Omettere la licenza: lascia spazio a interpretazioni errate sul riuso.
Contraddire robots.txt o llms.txt: genera sfiducia nei crawler.
Non indicare contatti: rende difficile gestire takedown o chiarimenti.
Rate limit incoerenti: troppo bassi riducono la scansione, troppo alti creano carico.

Come testarlo

Richiedi https://tuodominio/ai.txt e verifica header (cache, 200 OK).
Controlla che i percorsi Allow/Disallow siano coerenti con robots.txt.
Esegui un crawl controllato su staging per validare che le regole siano rispettate.

Per supporto operativo e legale su ai.txt e llms.txt per PMI: Scopri i servizi.