ai.txt: lo standard dichiarativo per l'AI crawling
Che cos'e ai.txt, differenze con robots.txt e llms.txt, e linee guida per adottarlo nel 2026.
ai.txt e un file testuale in root che fornisce istruzioni ai crawler e agli agent AI su come usare i tuoi contenuti. Nasce per colmare i limiti di robots.txt su permessi, attribuzione e AI-specific rate limits. Serve a dichiarare cosa e consentito per l'uso AI: ingestione, training, caching, attribution, esclusioni. A differenza di robots.txt, puo esprimere vincoli legali e modalita di riutilizzo.
Perche adottarlo nel 2026
- Granularita: consente regole per categorie (es. permettere blog, vietare draft o aree utenti).
- Attribuzione: puoi richiedere che i contenuti siano citati con link canonico o brand.
- Uso commerciale: chiarisci se consenti training per fini commerciali o solo ricerca.
- Governance: offre un canale unico per contatti legali e DMCA legati all'AI.
Struttura raccomandata
# ai.txt
User-Agent: ai-bot
Allow: /blog/
Disallow: /draft/
Disallow: /user-data/
Attribution: required; link https://example.com
License: CC BY-NC-SA 4.0
Policy: https://example.com/ai-policy
Contact: https://example.com/legal
RateLimit: 60 rpm; burst=20
Cache-Control: max-age=86400
Campi utili:
- User-Agent: puoi specificare regole per agent noti o wildcard.
- Allow/Disallow: elenca percorsi consentiti o esclusi.
- Attribution: required/optional/none, con modalita di citazione.
- License: riferimenti chiari alla licenza applicata.
- Policy: link a pagina legale con termini AI.
- Contact: email o form per richieste.
- RateLimit e Cache-Control: indicazioni operative per ridurre carico.
Confronto con altri file
| File | Scopo principale | Note operative |
|---|---|---|
| robots.txt | Crawling motori classici | Non copre licenze o attribution |
| llms.txt | Entry point per LLM e dataset | Focus su contenuti, licenze, percorsi |
| ai.txt | Policy AI e training, attribution | Piu dettagliato su uso AI e limiti |
Come implementarlo senza conflitti
- Mappa i percorsi e stabilisci cosa e consentito per training e caching.
- Allinea robots.txt, ai.txt e llms.txt: evita che un file consenta cio che l'altro vieta.
- Aggiorna privacy e termini: cita ai.txt come fonte ufficiale per le policy AI.
- Pubblica il file in root del dominio e verifica che ritorni 200 OK.
- Monitora i log: controlla user agent, frequenza e rispetto dei percorsi.
Esempio per siti editoriali
# ai.txt
User-Agent: *
Allow: /news/
Allow: /opinioni/
Disallow: /abbonati/
Disallow: /preview/
Attribution: required; text "Fonte: Example News"; link https://example.com
License: Custom-NoCommercial
Contact: mailto:legal@example.com
RateLimit: 30 rpm
Errori comuni da evitare
- Omettere la licenza: lascia spazio a interpretazioni errate sul riuso.
- Contraddire robots.txt o llms.txt: genera sfiducia nei crawler.
- Non indicare contatti: rende difficile gestire takedown o chiarimenti.
- Rate limit incoerenti: troppo bassi riducono la scansione, troppo alti creano carico.
Come testarlo
- Richiedi
https://tuodominio/ai.txte verifica header (cache, 200 OK). - Controlla che i percorsi Allow/Disallow siano coerenti con robots.txt.
- Esegui un crawl controllato su staging per validare che le regole siano rispettate.
Per supporto operativo e legale su ai.txt e llms.txt per PMI: Scopri i servizi.