Muchas veces nuestra web se ve influida por la visita de bots que ralentizan la misma, consumiendo recursos que provocan pérdida de confianza en los visitantes "normales" como pueden ser posibles clientes o lectores de nuestros contenidos.
Si tienes una web con muchas urls, tipo periódico o tipo ecommerce con miles de productos, los bots pueden ser una pesadilla para ti, porque tumbarán tu web una y otra vez.
Da igual si tienes un hosting compartido (en este caso tu web irá a pedales) o un servidor propio: si tu web tiene muchas urls, los bots "legales" te la tumbarán tarde o temprano.
Es indispensable que configures los bots de Google y de Bing para que rastreen tu web en horario nocturno. Eso hará que tu web no se ralentice en las horas punta que más visitantes acoge.
Una solución adicional, es añadir al archivo robots.txt de tu cms algunas líneas para bloquear a los bots que son por todos conocidos como más pesados o poco útiles.
El añadir una prohibición a tu archivo robotx.txt no va a impedir que una "araña" visite tu web, porque a veces se suelen saltar esta regla "consensuada", sobre todo si el bot es un bot de dudosa legalidad.
Pero bueno, siempre es bueno poner granito a granito cualquier impedimento que ayude a bloquearlos.
Añade las siguientes líneas a tu archivo robots.txt (añádelas debajo de las que ya tengas, no elimines las que ya hay)
Estos bot son conocidos por su "poca utilidad":
# Bloqueo de bots y crawlers poco utiles User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / User-agent: MJ12bot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Claude-Web Disallow: /
Si además usas WordPress y WooCommerce, puedes añadir las siguientes líneas al principio del robots.txt para que no indexen la opción de añadir productos a la lista de seguimiento (add_to_wishlist) y añadir al carrito (add-to-cart):
User-agent: * Disallow: /*add-to-cart=* Disallow: /*add_to_wishlist=*