Rechercher

L’analyse comportementale peut-elle révolutionner la détection ?

Laurent Célérier, CTO d’Orange Cyberdefense apporte son regard critique sur l’impact du machine learning sur les capacités de détection des menaces.

Détection : une évolution nécessaire

La cybersécurité et en particulier la fonction de détection est confrontée à six évolutions :

L’instabilité de la menace : les techniques d’attaque évoluent constamment mais elles ne remplacent pas celles d’hier, elles s’ajoutent à celles déjà existantes.

Le chiffrement des flux : en janvier 2017, 50% des pages de Firefox utilisaient le protocole de chiffrement HTTPS. Ce volume atteint 80% en janvier 2020. Les réseaux sociaux, les solutions de stockage, les moteurs de recherche et les logiciels cloud s’appuient également sur ces protocoles chiffrés pour communiquer. Une évolution positive pour la sécurité mais qui complexifie la détection. La majorité des attaques réseau utilisent en effet le trafic chiffré pour contourner les moyens de détection et de contrôle.

L’explosion des volumes de données : il y a de plus en plus de features dans les applications, chacune engendrant des logs. On estime qu’un utilisateur produit environ 25 000 logs chaque jour.

L’augmentation de la surface d’attaque : l’adoption d’applications et de services cloud étend et complique considérablement les environnements informatiques. Nous assistons à un éclatement des systèmes d’information.

L’augmentation du patching :  elle rend les environnements plus instables et plus exposés.

Le manque de ressources humaines : plus d’un million de postes de professionnels de la sécurité ne sont pas pourvus aujourd’hui et nous assistons à une pénurie des talents. Ce chiffre atteindra 3,5 millions d’ici 2021 selon Fortinet.

Ces six évolutions nous obligent collectivement à changer nos stratégies de détection. Aujourd’hui, celles-ci sont essentiellement basées sur :

  • des cas d’usage et des incidents redoutés,
  • des moteurs de corrélation et des règles de détection,
  • des signatures d’attaque et des indicateurs de compromission,
  • des outils d’investigation et des qualifications manuelles.

Evoluer n’étant pas synonyme d’abandon complet, ces méthodes restent nécessaires bien que désormais insuffisants. En effet, la détection de signatures malveillantes dans les flux constitue encore aujourd’hui une solution de protection efficace. Les systèmes anti-spam, la plupart des antivirus et les sondes fonctionnent encore sur ce principe.

A noter que pour faire face à une menace en évolution constante, nous devons constituer et entretenir des bases de données de plus en plus grandes. Leur gestion devient ainsi elle-même un défi.

Les limites de l’approche comportementale

Pour être efficace, un algorithme nécessite des données en très grand nombre et doit être adapté à chaque contexte client. Cette exigence a des conséquences très pratiques : il faudra disposer de temps pour les collecter, de la possibilité de les trier, de débit pour les transporter, de place pour les stocker, et de capacité de calcul pour les exploiter, en particulier lors de la phase d’apprentissage des modèles de détection.

En outre, un algorithme peut bien évidemment être leurré. Le robot conversationnel de Google avait dérivé lors d’essais : en l’espace de peu de temps, il était devenu déviant. L’introduction d’une déviance progressive peut ainsi conduire à ce qu’un comportement anormal soit progressivement considéré comme valide. L’algorithme peut aussi être saturé et contourné : un attaquant peut augmenter le bruit de fond, faire exploser le nombre de faux-positifs, réduire l’efficacité des mécanismes d’apprentissage ou manipuler la charge utile du malware jusqu’à ce qu’elle devienne indétectable.

Pour que l’on puisse avoir confiance en un algorithme, il est nécessaire de pouvoir évaluer la pertinence des informations et alarmes qu’il remonte. Nous ne pouvons pas nous contenter de savoir qu’une anomalie ressemble à 63% à un comportement malveillant ; il nous faudra une liste de preuves et celles-ci devront être analysées.

Ce besoin d’analyse conduit à un autre défi de l’utilisation intensive du machine learning dans la détection, celui des compétences. En effet, il est probable que l’analyse des preuves s’avère complexe car elles peuvent venir de la profondeur des systèmes. Les décortiquer pour prendre les bonnes décisions sera difficile.

Enfin, comme tout système de défense, l’algorithme de détection, mais aussi son environnement, font et feront l’objet d’attaques.

Exploiter au mieux l’analyse comportementale : l’approche d’Orange Cyberdefense

Un indice de confiance pour les IOC

Quelle confiance puis-je accorder à un IOC (indicator of compromise) ? Comment se comporte un malware ? Quelles mesures de protection dois-je adopter ? Ces questions sont extrêmement fréquentes chez nos clients.

Au sein d’Orange Cyberdefense, nous avons développé un algorithme qui permet d’attribuer un indice de confiance à un IOC. Cet indice de confiance élevé ouvrira la voie à la mise en place d’une réponse automatique. Il engendrera ainsi une investigation plus approfondie ou un classement en faux-positif. En cas de confiance faible, il ne sera pas intégré à nos capacités de détection et d’investigation.

Une amélioration des règles de détection pour nos SOC

Dans les SOC actuels sont définis des schémas d’attaque (use cases) qui évoluent par la suite grâce aux analyses de risque et premiers retours. Nous comptons entre 50 et 150 use cases en fonction du contexte et de la complexité du SI à protéger. Cette approche est efficace sous réserve de bien les définir et de les faire évoluer. Néanmoins, elle reste assez statique et atteint ses limites lorsque les environnements deviennent trop instables voire même face à des attaquants très imaginatifs ou utilisant des outils nouveaux.

Il serait alors tentant de s’affranchir des use cases et de placer ces logs au sein d’une machine qui détectera automatiquement des anomalies. Cette approche est séduisante mais, en l’état actuel des choses, trop peu mature pour être véritablement efficace. Le taux de faux-positifs demeure important et la détection reste trop aléatoire. Même en adoptant une approche semi-supervisée, c’est-à-dire en prenant en compte les use-cases et en apprenant au fur et à mesure, des défauts subsistent et les analystes sont soumis à un travail répétitif. Cette situation pourrait évoluer avec les progrès réalisés en termes d’intelligence artificielle. Nous suivons donc attentivement les travaux de nos confrères chez Google et Microsoft notamment.

L’approche d’Orange Cyberdefense : les micro-SOC

Nous proposons de revoir les architectures de détection en ayant recours à un principe simple mais efficace : la segmentation. En effet, pour résoudre un problème complexe, il faut parfois le segmenter en plusieurs problèmes simples, avec moins de variables. Pour cela, nous préconisons l’utilisation de micro-SOC. En restreignant les champs d’analyse, nous sommes à la fois plus précis mais aussi plus proches des problématiques-métier : les use-cases sont ainsi beaucoup plus ciblés.