Uno de los problemas que me he encontrado estos días es que al analizar el tráfico de una web que administro, me he fijado que tengo un consumo de tráfico muy elevado:
y el problema lo tenía con el Tráfico no visto, que se me disparaba.
Con el Awstats intenté ver por donde se iba todo ese tráfico pero no había mas información que esta.
Y claro, el «robot» al no identificarse, no era capaz de identificar su procedencia. Pero me acordé del archivo access_log de apache y busqué un comando en linux para sacar repeticiones y encontré este:
# tail -10000 access.log | awk ‘{print $1}’ | sort | uniq -c |sort -n
Esto nos saca en orden ascendente las direcciones IP de las que hemos tenido más visitas.
Una vez con esto, identifiqué las ip que más peticiones abrían en el servidor:
37.140.141.18 / 37.140.141.20 / 95.211.238.105 y 66.249.73.127
Me puse a buscar a quien pertenecían las direcciones y encontré que
37.140.141.18 => Spider images Yandex
37.140.141.20 =>Spider images Yandex
95.211.238.105 => Spider Twenga
66.249.73.127 => Googlebot
Así averigué que la araña de Yandex (Buscador ruso) me saturaba la web a peticiones, por lo que decidí bloquearlo, vasta poner en el .htaccess:
deny from 37.140.141.18
deny from 37.140.141.20
Y listo, ya ha vuelto mi web a tráficos normales.
Espero que esta experiencia le sirva a alguien.