Uso de la Inteligencia Artificial para mejorar la Ciberseguridad
Parece que no hay casi ningún aspecto de la vida de los seres humanos que no pueda ser mejorado por la ciencia de datos y la Inteligencia Artificial. El Machine Learning, y ahora el Deep Learning se han convertido en nuestros nuevos aliados para derribar las barreras que bloquean el avance del conocimiento. Y, dado que estamos en un mundo crecientemente digital, cada día es más sencillo modelar nuestro comportamiento y publicarlo en línea, de forma que otros puedan analizarlo y sacar conclusiones. Con cada acción realizada que pueda ser monitoreada por un dispositivo digital, nos vemos irremediablemente expuestos, muchas veces sin ser plenamente conscientes de ello. Es precisamente este motivo, la constante exposición de nuestros datos (y los de las empresas) en unas redes que son crecientemente complejas, por lo cual es cada vez más necesario incrementar los medios y métodos para salvaguardar nuestros datos, y los de las corporaciones. Si a esto se le añade que existen organizaciones que se especializan en la búsqueda de brechas en el entramado tecnológico, para su explotación, y que a cada paso que damos para protegernos, estas modifican y perfeccionan los mecanismos para vulnerarnos, nos vemos pronto sumergidos en un panorama angustiante.
No es entonces extraño que la Inteligencia Artificial se torne en un nuevo aliado, si se antoja imprescindible, para combatir los hackers y garantizar nuestra seguridad, e integridad. Pero, para poder entender cuan útil puede ser la IA, o el ML/DL, para la ciberseguridad, primero debemos detenernos a entender cuales son los retos que los expertos en seguridad informática están enfrentando. Porque, desde el punto de vista del científico de datos, el reto consiste solo en tratar de modelar el caso estudiado en alguno de los casos de uso primordiales de la Ciencia de Datos, que son la regresión linear, la clasificación o la aglomeración (“clustering”).
Voy a añadir a estos, algunos casos de uso que han surgido en los últimos años, y que son particularmente prometedores para la ciberseguridad, que son la detección de anomalías, el procesamiento de lenguaje natural y los grafos de redes.
Principales retos de la ciberseguridad.
Sin ánimo de ser exhaustivo, creo que algunos de los crecientes retos de la ciberseguridad de hoy día son:
- Estamos generando mas datos: Es de todos conocido que los crecientes volúmenes de datos que pasan por la red hace impráctico cualquier tratamiento manual de las amenazas. La automatización de los procesos de análisis es fundamental.
- La red es más compleja: nos estamos acostumbrando a manejar redes muy distribuidas, con partes híbridas (on-premises/on-cloud), cableadas e inalámbricas y con sitios cada vez más remotos. Lo anterior sin tomar aún en cuenta el fenómeno de la IoT y el teletrabajo.
- La naturaleza reactiva de la ciberseguridad: desafortunadamente, las amenazas se atienden normalmente después que han sucedido. La capacidad de predecir ataques cobra un inmenso valor, porque cambiaría las reglas del juego totalmente a nuestro favor.
- Los hackers también están usando tecnología: los métodos de ataque se han ido sofisticando, y ya los hackers esconden y cambian sus IP y sus dominios de forma dinámica, por lo que están constantemente mutando mientras buscamos identificarlos. Se está desarrollando toda una carrera armamentista en la red, y tenemos que ser proactivos para no llevar las de perder.
Todo lo anterior tiene mucha relación con la IA. La inteligencia artificial es capaz de analizar grandes cantidades de datos, también analizar patrones especialmente complejos y muy rápido. Tiene el poder predictivo que necesitamos y además es capaz de aprender y mejorar. Ahora, ¿cómo puede beneficiarnos el uso de la AI en ciberseguridad?
Casos de Regresión Linear:
- User risk score: permite determinar la peligrosidad de un usuario aplicando un score. Este score se puede calcular en base a los accesos a vulnerabilidades conocidas y la probabilidad de ataque histórica.
Casos de Clasificación:
- Clasificación de Malware o Spam en correos: una de las primeras aplicaciones de la IA. Los primeros modelos se basaban en reglas, pero como el spam va mutando para saltarse las reglas, hoy se usan modelos de random forest y gradient boosting.
- Alertas de tráfico sospechoso basado en comportamiento: se crean los perfiles del tráfico de los usuarios y las aplicaciones para detectar comportamientos sospechosos.
Casos de Aglomeración:
- Clustering de usuarios: muy similar al anterior, pero creando grupos de usuarios o grupos de tráfico con características reconocibles. Cualquier evento que no se pueda clasificar en base a los grupos, se notifica.
Casos de Detección de Anomalías:
- Detección de Anomalías en el tráfico: se proponen sistemas basados en OC-SVM, o máquinas vectoriales de una sola clase (One Class Support Vector Machines). Sería como un caso muy especial de clasificación, pero la diferencia es que aquí no es necesario definir previamente grupos o perfiles. Este caso busca anomalías más sutiles, más difíciles de detectar porque pueden involucrar un conjunto de características muy variado.
Más recientemente se han desarrollado nuevas alternativas, también muy prometedoras, con técnicas de procesamiento de lenguaje natural y el análisis de redes de grafos.
Procesamiento de Lenguaje Natural:
- Detección de nombres de dominio maliciosos.
- Detección de Dominios maliciosos generados dinámicamente.
- Detección de Correos maliciosos (ingeniería social).
Teoría de Grafos:
- Análisis de tráfico usando grafos: se busca identificar los flujos más probables y menos probables, independientemente de los usuarios.
- Predicción de enlaces: se trata de predecir cuándo en una red dada alguno de los nodos creará un nuevo enlace potencialmente peligroso.
Estas son algunas de las propuestas entre tradicionales y novedosas en las que la IA está aportando nuevas herramientas de valor al ramo de la ciberseguridad. Seguramente, no serán las últimas, ya que es un campo muy activo y de gran interés para todas las empresas.
En una futura publicación, hablaremos de los requisitos y las complicaciones que surgen en la implementación de estas tecnologías. Hablaremos de los aspectos intrínsecos de la seguridad, y de otros planteamientos más éticos de este tipo de soluciones a implementar.
Carlos Alberto García
Data Scientist
Asseco Spain Group