¿Cómo funcionan los filtros anti-spam?
Martes, 30 Enero 2007 Autor:Mathieu Favez¿Quién no ha recibido spam (correo basura) en su cuenta a de correo? Los denominados correos spam son unos de los problemas mayores en Internet. Para luchar contra ellos, los servidores de correo integrán sistemas cada vez más sofisticados para detectarlos y descartarlos. Una de las tecnicas empleada y más eficiente es el uso de filtros bayesanos.
Este tipo de filtros usán el teorema probabilístico de Bayes. Podemos resumirlo de la manera siguiente:
“La probabilidad de que un correo electrónico sea spam, considerando que haya ciertas palabras en él, es igual a la probabilidad de encontrar esas ciertas palabras en un correo basura por la probabilidad de que algún correo sea spam, dividido entre la probabilidad de encontrar esas palabras en algún correo.”
El filtro bayesiano necesita una base de datos que contenga palabras y otros criterios (direcciones IP, hosts,…), para calcular la probabilidad de que un correo determinado sea spam, sacados de un ejemplo de correo basura y de correo válido. A cada palabra se le establece un valor de probabilidad basado en la frecuencia de aparición de dicha palabra en un correo basura frente a un correo válido.
Disponiendo de la base de datos el filtro podrá actuar. Cuando se recibe un nuevo correo, el análisis consiste en descomponer el texto en palabras y se seleccionan las más relevantes, las cuales el filtro bayesiano procesará calculando la probabilidad de que el correo que hemos recibido sea spam o no. Si la probabilidad supera un umbral establecido se considerará spam.
El artículo publicado en genciencia les dará más información sobre cómo actuán los filtros bayesanos.
