¿Filtros de spam con buen soporte de expresiones regulares en todos los campos de correo electrónico?

Operamos una pequeña tienda de Windows con Exchange. El spam es un problema constante; recibimos miles de mensajes de spam al día y logramos eliminar la mayor parte del spam mediante el uso de un filtro en nuestro puerto SMTP entrante. Aún así, algo de basura pasa. El 1 % de los 10 000 mensajes de spam al día sigue siendo realmente un fastidio.

Actualmente usamos Xwall como filtro de spam. Tiene dos características realmente buenas.

  1. Graylisting (simplemente ignorar un primer correo electrónico de sitios no vistos anteriormente; los remitentes reales en dichos sitios lo vuelven a enviar después de un tiempo para que ese correo llegue, pero los spammers casi nunca lo reenvían). Esto atrapa el 90% o más.
  2. La capacidad de eliminar el correo electrónico (spam) comprobando ciertos patrones de cadenas mediante algunas coincidencias simples de cadenas salvajes (texto con asteriscos como comodines).

Sin embargo, no es consistente al permitir verificaciones de patrones en cualquier campo de correo electrónico (en particular, no podemos aplicar ningún filtro a "De:", que los spammers parecen llenar con muchos indicadores útiles de "Soy spam", por ejemplo, "De : Autos con descuento (Hilda.Pate@leaderRefreshing.com)". Tampoco permite una coincidencia de patrones poderosa (por ejemplo, expresiones regulares decentes). La ausencia de expresiones regulares significa falsos positivos y falsos negativos. Nos hemos quejado con los muchachos de Xwall sobre esto durante años. pero sin respuesta.

¿Hay alguna aplicación de filtro de spam que tenga:

  • lista gris
  • Lista blanca con expresiones regulares en direcciones de correo electrónico
  • Filtrado de expresiones regulares reales en todos los campos de correo electrónico, por campo. Dado que los filtros regexp se inventaron para detener una ola particular de spam ("¿Qué se ha hecho Martha Stewart en la cara?"), una propiedad muy buena sería la fecha de terminación (¿90 días por defecto?) volver a habilitar fácilmente si la ola de spam continúa.
  • La capacidad de filtrar el correo electrónico en función de las palabras mal escritas (¿De cuántas maneras puedes escribir mal "cialas" usando caracteres divertidos para i y l?)
  • Registro de todo el correo electrónico entrante en un registro, con motivo de filtrado (incluido "ninguno")
  • Capacidad para designar una entrada de correo electrónico filtrada como "OK" para volver a enviar, para manejar el falso positivo ocasional

Otras características, como el aprendizaje bayesiano, son agradables pero no necesarias.

Dado que dicho filtro acepta mensajes SMTP en un puerto SMTP públicamente visible y reenvía mensajes (filtrados) a un puerto SMTP interno que proporcionamos para Exchange, no importa dónde se ejecute para nosotros. En particular, es aceptable que el filtro se ejecute en Windows o Linux.

Nuestro servidor de Exchange es bastante antiguo (2005) y nos estamos preparando para actualizarlo. Me encantaría saber que todo esto está integrado en las versiones modernas de Exchange. El pesimismo abunda.

"Otras funciones, como el aprendizaje bayesiano, son agradables pero no necesarias". Me sorprende que no cambie simplemente a otro software de filtrado. Se ha demostrado que el filtrado bayesiano es mucho más efectivo que la coincidencia de patrones.
¿En qué sentido? El material de coincidencia de patrones funciona bastante bien y, a menudo, detecta nuevas formas del mismo spam antiguo. Las cosas bayesianas tienen que aprender nuevo spam. Me complacería que recomendara una solución que tuviera ambos. Puedo vivir sin la parte bayesiana. No quiero vivir sin la parte de expresiones regulares.
Había ofrecido una recompensa de +100 para obtener más acción en esto. Aparentemente no llamó más la atención. ¿Es realmente tan estéril el estado de las herramientas de gestión de spam?

Respuestas (3)

El filtrado bayesiano es tan milenio. ;) Honestamente, en los últimos cinco años la industria del correo electrónico ha cambiado tanto que ya no es como antes. Los filtros bayesianos solían ser la norma para el filtrado, y ahora se usan muy poco para etiquetar solo a los infractores más obvios que son claramente mensajes no solicitados.

La reputación de IP es donde debe buscar, ya que la mayoría de los mensajes no solicitados provienen de redes de bots llenas de IP que solo envían un par de cientos de mensajes de spam y no tienen una reputación acumulada, por lo que es una señal de spam fácil.

Barracuda ofrece este servicio, junto con algunos otros.

Sin embargo, honestamente, por lo que vale, mueva su correo electrónico a un proveedor de correo electrónico dedicado. A menos que sea crítico que sus servicios de correo electrónico permanezcan en casa, no vale la pena intentar mantenerlo en casa nunca más. Está llegando al punto en que las empresas necesitan contratar un equipo de expertos en correo electrónico solo para mantener algo así en casa, ya que el mantenimiento requerido está cada vez más fuera de control.

Google sería mi primera opción, o Amazon. El antispam de Google es francamente increíble y los falsos positivos son relativamente raros y lo peor que me pierdo es un boletín al que me suscribí legítimamente.

No queremos que nuestro correo electrónico esté disponible para un proveedor, sin importar las garantías que nos brinden (NSA, ¿alguien?), por lo que la tercera parte está fuera de discusión. Francamente, nos las arreglamos bastante bien solo con Xwall y Exchange, recibimos alrededor de 15,000 correos electrónicos al día, de los cuales la mayoría son spam o vectores de virus, pero solo 20-30 mensajes de spam pasan por nuestros filtros. En la inspección de estos, las expresiones regulares decentes terminarían el trabajo bastante bien, tal como lo vemos.
... ¿Puedes decir algo más sobre la reputación de IP? ¿Cómo se hace el juicio de que una máquina "solo ha enviado unos pocos cientos de mensajes de spam"? Creo que un mensaje de spam sería suficiente para descartar a un remitente. ¿Quién realiza un seguimiento de la reputación de IP?
... si se trata de cosas de la clase SpamHaus, sí, ya lo sabemos (y nuestra solución actual lo usa. Tal vez deba estar en mi lista de requisitos, porque no sé qué tan efectivo es). Puedo ver cómo es útil después de detectar el hecho de que una máquina está enviando spam, pero no detendrá los primeros mil mensajes de esa máquina, mientras que un filtro en "Viagra" funciona bien independientemente.
Bueno, la utilidad de la reputación de IP proviene del hecho de que una IP comienza con 0 reputación. Así que combine eso con el hecho de que sí, ve la palabra viagra allí y es prácticamente una garantía de que se marcará. La mayoría de las direcciones IP de los servidores de correo aumentarían naturalmente su volumen saliente; por lo general, no pasarían de ningún mensaje a un millón en un día. La reputación de IP rastrea estos factores junto con el porcentaje que se rebota (la mayoría del spam rebota una tonelada de mensajes entre direcciones legítimas), y el uso de todos esos datos le otorgará una puntuación, de manera similar a la bayesiana.
Si no usa STMP con SSL/TLS, entonces su correo electrónico está disponible para la NSA de todos modos.
@IraBaxter Si está realmente preocupado por la NSA, entonces nunca envíe ni reciba correos electrónicos fuera de su propia red interna. El correo electrónico no es seguro y, por lo general, no importa si está en la nube.
@MichaelHampton: No me gusta el espionaje de la NSA, pero imagino que no son el vector de amenaza directo, incluso si son la causa inmediata. Lo más probable es que la empresa Big Cloud tenga el brazo torcido, voluntariamente o no, para que renuncie a todos esos datos en la nube. No tiene sentido ponérselo fácil dándoselo a ellos.
@IraBaxter OK, eso tiene más sentido... y es una amenaza mucho más probable. El problema aquí es que los mejores filtros de spam son los servicios en la nube o están adjuntos a ellos.

GFI MailEssentials es compatible con Outlook con

Las reglas de filtrado basadas en el usuario permiten el filtrado granular y flexible de cualquier parte del mensaje de correo electrónico, incluidos los encabezados, el asunto, el cuerpo, el nombre del archivo adjunto y el contenido del archivo adjunto, utilizando diferentes tipos de métodos de coincidencia de patrones, incluidas las expresiones regulares.

También

La función POP2Exchange ofrece a las empresas que utilizan cuentas de correo electrónico POP3 externas una forma práctica de recibir correos electrónicos sin necesidad de un servidor de correo electrónico dedicado. http://www.gfi.com/products-and-solutions/email-and-messaging-solutions/gfi-mailessentials/specifications

Varios filtros antispam http://www.gfi.com/products-and-solutions/email-and-messaging-solutions/gfi-mailessentials/specifications/an-arsenal-of-anti-spam-filters

Complemento antispam de lista de bloqueo de IP: permite a los administradores de correo electrónico actualizar GFI MailEssentials con las direcciones IP de servidores smtp 'spammy', comprometidos o maliciosos para que los correos electrónicos que se originan en estos servidores se eliminen o se pongan en cuarentena.

He mirado en el sitio. Sus documentos en línea en realidad usan la palabra "regex" como una opción de filtro en los "encabezados", por lo que en realidad parece un candidato serio. +1 y puedo profundizar en esto.
@irabaxter ¿Encontró una solución que satisficiera sus necesidades?

MailRoute Inc. es un proveedor de seguridad de correo electrónico que 'lava' el correo electrónico en busca de virus y spam. El servicio funciona asumiendo el papel de intermediario en el registro DNS MX entre la Internet abierta y el servidor de correo electrónico. El servicio también protege contra interrupciones del servidor de correo electrónico al alojar temporalmente los correos electrónicos entrantes hasta que el servidor de correo electrónico esté listo para recibir mensajes nuevamente.

Las funciones de MailRoute se enumeran en https://www.mailroute.net/

  • GreyListing para bloquear spam 'bots y zombies
  • Listas negras de spammers conocidos.
  • Bases de datos de huellas dactilares de spam.
  • Análisis léxico para identificar palabras o frases comunes de spam.
  • Filtrado bayesiano.
  • El análisis de patrones de tráfico distribuido identifica nuevo spam.
  • Las listas blanca y negra le permiten ajustar las puntuaciones, según el remitente.
  • Cuarentena: el spam se almacena en MailRoute SpamStore® durante siete días y se puede acceder a él a través de una interfaz web.
  • Reescritura de la línea de asunto: anteponer una palabra o frase y el SpamScore® en la línea de asunto del mensaje.
  • Se agregan líneas de encabezado personalizadas a cada mensaje para que pueda seleccionar sus propios criterios de filtrado.
  • Personalizable por usuario o por dominio. Cada usuario puede tener su propia configuración individual de sensibilidad y procesamiento.
  • Las listas blancas y negras de todo el dominio o individuales le permiten bloquear o permitir direcciones específicas.
  • Compatible con todos los sistemas de correo electrónico, independientemente de la plataforma o el sistema operativo subyacente.
  • La implementación toma solo unos minutos y está libre de riesgos.
  • Garantía de tiempo de actividad del 99,999 %.

Consulte la revisión detallada del usuario en http://community.spiceworks.com/topic/341240-so-far-so-good-on-mailroute-spam-filter-free-trial

Suena algo razonable. ¿Cómo aborda el aspecto de expresión regular de mi pregunta?
Según el soporte avanzado de MailRoute "Usamos una gran cantidad de coincidencias de patrones de expresiones regulares en nuestras propias reglas, por supuesto, pero ninguno de nuestros sistemas configurables por el usuario tiene soporte de expresiones regulares. No estoy seguro, fuera de las listas blancas/negras donde nuestros usuarios usarían eso. ¿Puedes explicar lo que estás buscando con más detalle?" En mi humilde opinión, es obvio que las expresiones regulares del usuario se usarían para la lista blanca y la lista negra del usuario. Sin embargo, quería saber su opinión antes de responder.
De mi consulta anterior: "Filtrado de expresiones regulares reales en todos los campos de correo electrónico, por campo" ¿Por qué no está claro? De un spam real, un ejemplo obvio: el campo de contiene: "Muestra de sueño lunar <LunarSleep@oaferide.com>" Quiero decir, "si <Sueño lunar> está en el campo De:, márcalo como spam". O "Dr. Oz". Es increíble la cantidad de cr-- que puedes eliminar de esa manera. ¿Por qué los proveedores de herramientas de correo tienen tanto miedo de proporcionar expresiones regulares a los usuarios? Aquellos que no saben lo que es, no lo usarán. Quienes lo hagan, lo utilizarán con eficacia. Y no es que las bibliotecas de expresiones regulares no estén fácilmente disponibles.
... Independientemente, no quiero un intermediario (la mayoría de nosotros ya queremos evitar a la NSA, y mucho menos a las personas cuyos motivos no podemos controlar). Mailroute no es una solución para mi problema.
El cifrado de extremo a extremo del cuerpo del mensaje impediría la escucha mientras se usa un servicio de terceros para filtrar el spam usando los campos del encabezado del mensaje. Los intermediarios en forma de servicios de retransmisión SMTP son inevitables.
Soporte avanzado de FWIW por MailRoute "No, no proporcionamos filtrado configurable por el usuario por campos en los encabezados de correo electrónico. Es una idea interesante, pero no es algo que tengamos en la placa de desarrollo en este momento. ¿Conoce algún otro servicio que proporcione esto? No puedo pensar en ningún otro lugar donde haya visto esto".