Bloquear bots de inteligencia artificial se ha convertido en una prioridad para muchos propietarios de sitios web. Cada vez más, los bots de inteligencia artificial (IA) y aprendizaje automático (ML) rastrean sitios web y extraen contenido de manera automática. Estos bots recopilan tus datos para entrenar modelos de software como ChatGPT, OpenAI, DeepSeek y otras plataformas de IA, sin ofrecer ninguna retribución a tu sitio web.
El problema con los bots de IA es que, a diferencia de los motores de búsqueda legítimos, no están interesados en indexar tu sitio para mejorar su visibilidad, sino que simplemente roban y utilizan tus datos para alimentar sistemas de inteligencia artificial.
Si deseas proteger tu sitio y evitar que estos bots accedan a tu contenido, es fundamental saber cómo bloquearlos correctamente. En esta guía, te ofrecemos la lista más completa de bots de IA que puedes bloquear utilizando el archivo robots.txt. De este modo, conseguirás bloquear bots de inteligencia artificial de forma efectiva y asegurarte de que tu contenido no sea explotado sin tu consentimiento.
Cómo bloquear bots de inteligencia artificial con el archivo robots.txt
Una de las formas más fáciles y efectivas de bloquear bots de inteligencia artificial es mediante el archivo robots.txt, especialmente para aquellos propietarios de sitios web que buscan una solución sencilla.
El archivo robots.txt es un archivo de configuración que contiene directrices para los bots de rastreo y otras entidades similares, indicándoles qué páginas pueden explorar y cuáles no. Por lo tanto, puedes agregar reglas específicas para restringir el acceso a ciertos contenidos, ya sea limitando el rastreo de páginas individuales o bloqueando todo el sitio.
Una vez que hayas añadido las reglas necesarias, solo debes subir el archivo robots.txt al directorio raíz público de tu sitio web. Un ejemplo de este archivo sería el utilizado en Ayuda WordPress, que sirve de guía para otros sitios.
Para bloquear bots de inteligencia artificial en tu sitio web usando el archivo robots.txt, solo debes incluir las siguientes reglas. Es importante recordar que los bots no están obligados a seguir estas directrices; de hecho, los bots legítimos generalmente las respetarán, pero los bots no deseados pueden ignorarlas.
Si deseas reforzar aún más las restricciones, puedes emplear reglas adicionales en Apache/.htaccess, que aseguran que los bots no sigan tus indicaciones. Con eso en mente, te compartimos las reglas esenciales para bloquear los bots de IA en tu sitio.
#Bloquear bots de todas las IAs
#https://perishablepress.com/ultimate-ai-block-list/
User-agent: Agent GPT
User-agent: AgentGPT
User-agent: AIBot
User-agent: AI2Bot
User-agent: AISearchBot
User-agent: AlexaTM
User-agent: Alpha AI
User-agent: AlphaAI
User-agent: Amazon Bedrock
User-agent: Amazon Lex
User-agent: Amazonbot
User-agent: Amelia
User-agent: anthropic-ai
User-agent: AnyPicker
User-agent: Applebot
User-agent: AutoGPT
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Brave Leo AI
User-agent: Bytespider
User-agent: CatBoost
User-agent: CC-Crawler
User-agent: CCBot
User-agent: ChatGPT
User-agent: Chinchilla
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: Common Crawl
User-agent: commoncrawl
User-agent: Crawlspace
User-agent: crew AI
User-agent: crewAI
User-agent: DALL-E
User-agent: DataForSeoBot
User-agent: DeepMind
User-agent: DeepSeek
User-agent: DepolarizingGPT
User-agent: DialoGPT
User-agent: Diffbot
User-agent: DuckAssistBot
User-agent: FacebookBot
User-agent: Firecrawl
User-agent: Flyriver
User-agent: FriendlyCrawler
User-agent: Gemini
User-agent: Gemma
User-agent: GenAI
User-agent: Google Bard AI
User-agent: Google-CloudVertexBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPT-2
User-agent: GPT-3
User-agent: GPT-4
User-agent: GPTBot
User-agent: GPTZero
User-agent: Grok
User-agent: Hugging Face
User-agent: iaskspider
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: IntelliSeek.ai
User-agent: ISSCyberRiskCrawler
User-agent: Kangaroo
User-agent: LeftWingGPT
User-agent: LLaMA
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: Meta AI
User-agent: Meta Llama
User-agent: Meta.AI
User-agent: Meta-AI
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: MetaAI
User-agent: Mistral
User-agent: OAI-SearchBot
User-agent: OAI SearchBot
User-agent: omgili
User-agent: Open AI
User-agent: OpenAI
User-agent: PanguBot
User-agent: peer39_crawler
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: RightWingGPT
User-agent: Scrapy
User-agent: SearchGPT
User-agent: SemrushBot
User-agent: Sidetrade
User-agent: Stability
User-agent: The Knowledge AI
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: WebChatGPT
User-agent: Webzio
User-agent: Whisper
User-agent: x.AI
User-agent: xAI
User-agent: YouBot
User-agent: Zero GTP
Disallow: /
Bloquear bots de inteligencia artificial a través de Apache/.htaccess
Si deseas aplicar una solución más fiable para bloquear bots de inteligencia artificial, puedes añadir reglas específicas en la configuración de Apache o en el archivo .htaccess principal de tu sitio. Esta es una de las formas más efectivas de bloquear el acceso de los bots de IA, ya que las restricciones que añades en estos archivos son más difíciles de eludir que las establecidas en robots.txt.
Para bloquear bots de inteligencia artificial mediante Apache/.htaccess, solo debes incluir las reglas adecuadas en el archivo de configuración de tu servidor o en el archivo .htaccess ubicado en la raíz pública de tu sitio web. Después de añadir las reglas, asegúrate de guardar los cambios.
#BEGIN Bloquear bots de IA
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Agent\ GPT|AgentGPT|AIBot|AI2Bot|AISearchBot|AlexaTM|Alpha\ AI|AlphaAI|Amazon\ Bedrock|Amazon\ Lex|Amazonbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Amelia|anthropic-ai|AnyPicker|Applebot|AutoGPT|AwarioRssBot|AwarioSmartBot|Brave\ Leo\ AI|Bytespider|CatBoost) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (CC-Crawler|CCBot|ChatGPT|Chinchilla|Claude-Web|ClaudeBot|cohere-ai|cohere-training-data-crawler|Common\ Crawl) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (commoncrawl|Crawlspace|crew\ AI|crewAI|DALL-E|DataForSeoBot|DeepMind|DeepSeek|DepolarizingGPT|DialoGPT|Diffbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (DuckAssistBot|FacebookBot|Firecrawl|Flyriver|FriendlyCrawler|Gemini|Gemma|GenAI|Google\ Bard\ AI|Google-CloudVertexBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Google-Extended|GoogleOther|GPT-2|GPT-3|GPT-4|GPTBot|GPTZero|Grok|Hugging\ Face|iaskspider|ICC-Crawler|ImagesiftBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (img2dataset|IntelliSeek\.ai|ISSCyberRiskCrawler|Kangaroo|LeftWingGPT|LLaMA|magpie-crawler|Meltwater|Meta\ AI|Meta\ Llama) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Meta\.AI|Meta-AI|Meta-ExternalAgent|Meta-ExternalFetcher|MetaAI|Mistral|OAI-SearchBot|OAI\ SearchBot|omgili|Open\ AI) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (OpenAI|PanguBot|peer39_crawler|PerplexityBot|PetalBot|RightWingGPT|Scrapy|SearchGPT|SemrushBot|Sidetrade|Stability) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (The\ Knowledge\ AI|Timpibot|VelenPublicWebCrawler|WebChatGPT|Webzio|Whisper|x\.AI|xAI|YouBot|Zero\ GTP) [NC]
RewriteRule (.*) - [F,L]
</IfModule>
#END Bloquear bots de IA
Este método te permite bloquear bots de inteligencia artificial de manera más eficaz que el uso de robots.txt, ya que el archivo .htaccess no depende de que los bots sigan las reglas. Mientras que en robots.txt los bots deben obedecer las directrices de disallow, algunos bots pueden ignorarlas. En cambio, al añadir reglas en Apache/.htaccess, se bloquea de forma efectiva el acceso de los bots de IA que hayas listado, sin dejar margen a que los bots no deseados accedan a tu contenido.
Para implementar esta solución, debes añadir las reglas correspondientes en el archivo de configuración de Apache o en el archivo .htaccess ubicado en la raíz pública de tu sitio web. Una vez guardados los cambios, habrás bloqueado realmente a los bots de inteligencia artificial, asegurando que no puedan acceder a tu sitio.
Resumen:
Bloquear bots de inteligencia artificial es crucial para proteger tu sitio web de la extracción no autorizada de contenido. Mientras que el archivo robots.txt permite indicar qué bots pueden o no acceder a tu sitio, su efectividad depende de que los bots respeten las reglas, lo que no siempre ocurre. En cambio, al usar Apache/.htaccess, puedes bloquear de manera más fiable y efectiva a los bots de IA, asegurando que no puedan acceder a tu contenido, independientemente de si siguen las directrices del robots.txt. Esta solución proporciona un control total sobre el acceso a tu sitio.
Si estás profundizando tus conocimientos en WordPress y necesitas un servicio de hosting que se adapte a tus necesidades, te invitamos a conocer los planes de WordPress Hosting que DonWeb tiene para ofrecerte.