| Asunto: | [SauloNet] Saulo.Net y los agentes automáticos (capturadores o co piadores web) | | Fecha: | Miercoles, 20 de Noviembre, 2002 23:02:32 (+0100) | | Autor: | Saulo Barajas - Saulo.Net <webmaster @.....net>
|
Hola a todos,
acabo de hacer un ajuste en la programación de Saulo.Net que impide
que agentes automáticos como WebZip (http://www.spidersoft.com/webzip/)
o Httrack (http://www.httrack.com/) puedan descargarse mi sitio web completo.
El motivo ha sido que ayer sufrí un aparente ataque de denegación de
servicio procedente de una dirección de Chile al descargarse, en apenas
unos minutos, unas 10000 páginas de mi web. Evidentemente no tengo
tantas páginas :) pero el programa se lió con la estructura de links y
trató de descargar hasta el infinito las mismas páginas. Por suerte, lo
detecté a tiempo e impedí que la descarga masiva continuase. Los
servicios no se interrumpieron aunque se desbordaron las estadísticas
de acceso de www.saulo.net/stats/. Sorprendentemente el servidor web
Apache y el servidor de base de datos MySQL aguantaron la "prueba
de estrés".
Estos programas (que permiten copiar a un disco duro local toda la
estructura de un sitio web) generan un elevadísimo tráfico en los servidores
y pueden llegar a colapsarlos, sobre todo cuando hay accesos a una base
de datos. No se considera un uso lícito de los servicios web la utilización
de estos programas.
Para evitar futuros problemas, he incluido una comprobación al cargar
cada página que detecta a los principales agentes automáticos y les
remite a una página explicativa del bloqueo. Por lo tanto, lo máximo que se
podrá descargar con estos programas será la página con la explicación de
que el acceso ha sido bloqueado.
La verdad es que considero innecesaria la utilización de estos programas
en Saulo.Net debido a que los cursos se pueden descargar en un ZIP y cada
artículo ocupa sólo una página (que se puede guardar fácilmente, al contrario
que otros sitios que distribuyen un mismo artículo en varias páginas con el
único objetivo de incrementar sus estadísticas).
La lista de agentes bloqueados es pequeña aunque podrá aumentar en un
futuro si fuese necesario. Al igual que agentes automáticos, también he
considerado una lista negra de direcciones IP que, inicialmente, está vacía.
Estas medidas, que no deberían notarse con un uso normal del web,
considero que son necesarias para evitar utilizaciones abusivas o indebidas.
Todos los comentarios u observaciones sobre estas medidas son bienvenidos.
Un saludo,
--
Saulo Barajas
www.saulo.net
|