Member of The Internet Defense League Últimos cambios
Últimos Cambios
Blog personal: El hilo del laberinto Geocaching

AntiSpam

Última Actualización: 19 de Julio de 2004 - Lunes

Llevo en Internet desde 1992 (con modem de 9600bps compartido por toda la universidad) y con página web desde 1996. Mi web es bastante popular y estoy suscrito a infinidad de foros y listas de correo, por lo que es bastante normal que mi volumen de SPAM sea muy elevado. De hecho, en Enero de 2004, recibo en torno a 4000 mensajes diarios (no, no es una errata), de los cuales unos 1300-1500 mensajes, diarios, son de SPAM.

No siempre ha sido así, naturalmente. El SPAM, al menos el SPAM "salvaje", es un fenómeno relativamente reciente. En lo que a mí respecta, el correo comercial no deseado en mi buzón empezó a ser realmente preocupante en torno a Enero de 2003, donde percibí un incremento muy alto y muy rápido en la proporción de correo basura que recibía. En ese momento me di cuenta de que el SPAM había pasado de ser una molestia con la que convivir a ser una auténtica lucha por la supervivencia.

En la primavera de 2003 empecé a tomar medidas "activas" contra el inmenso diluvio de correo indeseado. Empecé a trabajar con listas negras y listas blancas, con listas de palabras clave, etc., intentando separar el grano de la paja. Nada satisfactorio: mantener este tipo de sistemas requiere mucho trabajo, y su efectividad es baja y temporal.

Más o menos por aquella época se dio a conocer la tecnología de filtros bayesianos. Este tipo de filtros estadísticos proporcionan una herramienta sencilla de usar y con un mantenimiento simple, pero con un gran poder discriminación entre correo legítimo y el SPAM. Mi primera experiencia fue con POPfile, una implementación de un filtro PROXY POP3 bayesiano escrito en Perl. La experiencia fue prometedora, pero el Perl es un lenguaje que me disgusta profundamente y aquellas primeras versiones de POPfile eran bastante "crudas": consumo de recursos, equivocaciones, etc.

En verano de 2003 empecé a probar SpamBayes, otro tipo de filtro bayesiano (y más técnicas estadísticas, como las distribuciones CHI) escrito en Python, lenguaje de programación de mi agrado, y cuya lista de correo llevaba siguiendo ya unos meses. Los resultados del producto son, sencillamente, excepcionales.

En Noviembre de 2003 desplegué en Argo un sistema de filtros antispam basados en tecnología SpamBayes y MILTER (sendmail). Los resultados están siendo muy gratificantes.

Pero el gran problema de los filtros de este tipo es que:

  1. Requieren de un entrenamiento manual.

  2. Deben recibir todo el mensaje antes de decidir si es SPAM o no.

  3. Aunque se puede usar la misma base de datos para distintos usuarios, la calidad de los resultados -siendo buenos- se resiente.

Por esa misma época surgió la iniciativa SPF (Sender Policy Framework), cuyo objetivo es evitar en lo posible la falsificación de direcciones de correo. Para ello, cada dominio de Internet debe publicar, vía DNS, información sobre las máquinas con permiso para enviar correo de un dominio determinado. En Febrero de 2004 SPF ha pasado a ser un borrador de estándar del IETF, y es de esperar que pronto se convierta en un estándar de Internet.

SPF no eliminará el SPAM, pero al menos su origen quedará claramente identificado. Y eso junto a mecanismos de listas negras, por ejemplo, permitirán reducir el nivel de SPAM de forma, espero, muy apreciable. Esta misma tecnología permitirá también imponer cierto control contra gusanos de correo electrónico, por ejemplo.



Python Zope ©2004 jcea@jcea.es

Más información sobre los OpenBadges

Donación BitCoin: 19niBN42ac2pqDQFx6GJZxry2JQSFvwAfS