Bloquear bots poco utiles y que consumen ancho de banda

Muchas veces nuestra web se ve influida por la visita de bots que ralentizan la misma, consumiendo recursos que provocan pérdida de confianza en los visitantes "normales" como pueden ser posibles clientes o lectores de nuestros contenidos.


Si tienes una web con muchas urls, tipo periódico o tipo ecommerce con miles de productos, los bots pueden ser una pesadilla para ti, porque tumbarán tu web una y otra vez.


Da igual si tienes un hosting compartido (en este caso tu web irá a pedales) o un servidor propio: si tu web tiene muchas urls, los bots "legales" te la tumbarán tarde o temprano.


Es indispensable que configures los bots de Google y de Bing para que rastreen tu web en horario nocturno. Eso hará que tu web no se ralentice en las horas punta que más visitantes acoge.


Una solución adicional, es añadir al archivo robots.txt de tu cms algunas líneas para bloquear a los bots que son por todos conocidos como más pesados o poco útiles.


El añadir una prohibición a tu archivo robotx.txt no va a impedir que una "araña" visite tu web, porque a veces se suelen saltar esta regla "consensuada", sobre todo si el bot es un bot de dudosa legalidad.


Pero bueno, siempre es bueno poner granito a granito cualquier impedimento que ayude a bloquearlos.


Añade las siguientes líneas a tu archivo robots.txt (añádelas debajo de las que ya tengas, no elimines las que ya hay)


Estos bot son conocidos por su "poca utilidad":


# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /


Si además usas WordPress y WooCommerce, puedes añadir las siguientes líneas al principio del robots.txt para que no indexen la opción de añadir productos a la lista de seguimiento (add_to_wishlist) y añadir al carrito (add-to-cart):


User-agent: *
Disallow: /*add-to-cart=*
Disallow: /*add_to_wishlist=*