Que Bots permitir en Robots.txt

Desde
2 Dic 2011
Mensajes
2.974
Hola, ultimamente mi servidor está a tope y creo que puede ser debido a las visitas de bots, por ejemplo hace un rato veo este
Insertar CODE, HTML o PHP:
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)

Haciendo una búsqueda veo que en foros ingleses lo bloquean, luego encontré una web que incluía en su robots.txt el bloqueo de todos estos bots,
la verdad no sé si será bueno bloquearlos todos o este sitio lo hace para evitar que se rastreen las páginas ya que es un foro y no se puede acceder a los hilos si no es con registro previo.

Edito el hilo y agrego una lista de bots indeseables para agregarlos al robots.txt, estoy en duda con el DotBot.

Insertar CODE, HTML o PHP:
User-agent: dotbot
User-agent: DotBot
User-agent: DotBot/1.1
User-Agent: Aboundex
User-Agent: 80legs
User-Agent: 360Spider
User-Agent: Java
User-Agent: Cogentbot
User-Agent: Alexibot
User-Agent: asterias
User-Agent: attach
User-Agent: BackDoorBot
User-Agent: BackWeb
User-Agent: Bandit
User-Agent: BatchFTP
User-Agent: Bigfoot
User-Agent: Black.Hole
User-Agent: BlackWidow
User-Agent: BlowFish
User-Agent: BotALot
User-Agent: Buddy
User-Agent: BuiltBotTough
User-Agent: Bullseye
User-Agent: BunnySlippers
User-Agent: Cegbfeieh
User-Agent: CheeseBot
User-Agent: CherryPicker
User-Agent: ChinaClaw
User-Agent: Collector
User-Agent: Copier
User-Agent: CopyRightCheck
User-Agent: cosmos
User-Agent: Crescent
User-Agent: Custo
User-Agent: AIBOT
User-Agent: DISCo
User-Agent: DIIbot
User-Agent: DittoSpyder
User-Agent: Download Demon
User-Agent: Download Devil
User-Agent: Download Wonder
User-Agent: dragonfly
User-Agent: Drip
User-Agent: eCatch
User-Agent: EasyDL
User-Agent: ebingbong
User-Agent: EirGrabber
User-Agent: EmailCollector
User-Agent: EmailSiphon
User-Agent: EmailWolf
User-Agent: EroCrawler
User-Agent: Exabot
User-Agent: Express WebPictures
User-Agent: Extractor
User-Agent: EyeNetIE
User-Agent: Foobot
User-Agent: flunky
User-Agent: FrontPage
User-Agent: Go-Ahead-Got-It
User-Agent: gotit
User-Agent: GrabNet
User-Agent: Grafula
User-Agent: Harvest
User-Agent: hloader
User-Agent: HMView
User-Agent: HTTrack
User-Agent: humanlinks
User-Agent: IlseBot
User-Agent: Image Stripper
User-Agent: Image Sucker
User-Agent: Indy Library
User-Agent: InfoNaviRobot
User-Agent: InfoTekies
User-Agent: Intelliseek
User-Agent: InterGET
User-Agent: Internet Ninja
User-Agent: Iria
User-Agent: Jakarta
User-Agent: JennyBot
User-Agent: JetCar
User-Agent: JOC
User-Agent: JustView
User-Agent: Jyxobot
User-Agent: Kenjin.Spider
User-Agent: Keyword.Density
User-Agent: larbin
User-Agent: LexiBot
User-Agent: lftp
User-Agent: libWeb/clsHTTP
User-Agent: likse
User-Agent: LinkextractorPro
User-Agent: LinkScan/8.1a.Unix
User-Agent: LNSpiderguy
User-Agent: LinkWalker
User-Agent: lwp-trivial
User-Agent: LWP::Simple
User-Agent: Magnet
User-Agent: Mag-Net
User-Agent: MarkWatch
User-Agent: Mass Downloader
User-Agent: Mata.Hari
User-Agent: Memo
User-Agent: Microsoft.URL
User-Agent: Microsoft URL Control
User-Agent: MIDown tool
User-Agent: MIIxpc
User-Agent: Mirror
User-Agent: Missigua Locator
User-Agent: Mister PiX
User-Agent: moget
User-Agent: Mozilla/3.Mozilla/2.01
User-Agent: Mozilla.*NEWT
User-Agent: NAMEPROTECT
User-Agent: Navroad
User-Agent: NearSite
User-Agent: NetAnts
User-Agent: Netcraft
User-Agent: NetMechanic
User-Agent: NetSpider
User-Agent: Net Vampire
User-Agent: NetZIP
User-Agent: NextGenSearchBot
User-Agent: NG
User-Agent: NICErsPRO
User-Agent: niki-bot
User-Agent: NimbleCrawler
User-Agent: Ninja
User-Agent: NPbot
User-Agent: Octopus
User-Agent: Offline Explorer
User-Agent: Offline Navigator
User-Agent: Openfind
User-Agent: OutfoxBot
User-Agent: PageGrabber
User-Agent: Papa Foto
User-Agent: pavuk
User-Agent: pcBrowser
User-Agent: PHP version tracker
User-Agent: Pockey
User-Agent: ProPowerBot/2.14
User-Agent: ProWebWalker
User-Agent: psbot
User-Agent: Pump
User-Agent: QueryN.Metasearch
User-Agent: RealDownload
User-Agent: Reaper
User-Agent: Recorder
User-Agent: ReGet
User-Agent: RepoMonkey
User-Agent: RMA
User-Agent: Siphon
User-Agent: SiteSnagger
User-Agent: SlySearch
User-Agent: SmartDownload
User-Agent: Snake
User-Agent: Snapbot
User-Agent: Snoopy
User-Agent: sogou
User-Agent: SpaceBison
User-Agent: SpankBot
User-Agent: spanner
User-Agent: Sqworm
User-Agent: Stripper
User-Agent: Sucker
User-Agent: SuperBot
User-Agent: SuperHTTP
User-Agent: Surfbot
User-Agent: suzuran
User-Agent: Szukacz/1.4
User-Agent: tAkeOut
User-Agent: Teleport
User-Agent: Telesoft
User-Agent: TurnitinBot/1.5
User-Agent: The.Intraformant
User-Agent: TheNomad
User-Agent: TightTwatBot
User-Agent: Titan
User-Agent: True_Robot
User-Agent: turingos
User-Agent: TurnitinBot
User-Agent: URLy.Warning
User-Agent: Vacuum
User-Agent: VCI
User-Agent: VoidEYE
User-Agent: Web Image Collector
User-Agent: Web Sucker
User-Agent: WebAuto
User-Agent: WebBandit
User-Agent: Webclipping.com
User-Agent: WebCopier
User-Agent: WebEMailExtrac.*
User-Agent: WebEnhancer
User-Agent: WebFetch
User-Agent: WebGo IS
User-Agent: Web.Image.Collector
User-Agent: WebLeacher
User-Agent: WebmasterWorldForumBot
User-Agent: WebReaper
User-Agent: WebSauger
User-Agent: Website eXtractor
User-Agent: Website Quester
User-Agent: Webster
User-Agent: WebStripper
User-Agent: WebWhacker
User-Agent: WebZIP
User-Agent: Whacker
User-Agent: Widow
User-Agent: WISENutbot
User-Agent: WWWOFFLE
User-Agent: WWW-Collector-E
User-Agent: Xaldon
User-Agent: Xenu
User-Agent: Zeus
User-Agent: ZmEu
User-Agent: Zyborg
Disallow: /
 
Última edición:

mhsantana

Dseda
SEO
Verificado por Whatsapp
¡Ha verificado su Paypal!
Desde
22 Abr 2011
Mensajes
1.222
Por curiosidad estas en bana?, por otro lado pues, seria cuestión que probaras, mientras no se bloque el de Google, msn y yahoo no veo problema :encouragement:
 

mhsantana

Dseda
SEO
Verificado por Whatsapp
¡Ha verificado su Paypal!
Desde
22 Abr 2011
Mensajes
1.222
sí :encouragement:

Igual tenía problemas con Input/output usage y el uso del cpu con un sitio de 2500 a 3000 diarias y la única solución que encontré fue cambiarlo de proveedor de hosting. nunca encontré el problema no se si fueron bots o que cosa sobrecargaba los recursos de mi pedazo de compartido. Igual manda ticket puede ser que te puedan orientar hacia donde está el problema :encouragement:
 
Última edición:

hostxxi

Beta
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
18 Mar 2014
Mensajes
119
La mayoría de veces no hacen caso al archivo robots.txt y ha que bloquearlos por htaccess
 
Arriba