Anbieter zum Thema
Phase 3: Lernen
Anhand von Millionen gewonnener Merkmale entwickelt und prüft Cylance dann Modelle, die eine Vorhersage der Schädlichkeit konkreter Dateien erlauben. Dabei werden zahlreiche Modelle parallel entwickelt, einige verworfen und nur die effektivsten Modelle weiterentwickelt. Durch die Anwendung der Modelle auf bekannte Malware-Dateien können die Modelle optimiert werden; Rückkopplungseffekte in diesem Lernprozess sorgen für weitere Verbesserungen. Das finale Modell wird dann aus der Testumgebung in die Produktionsumgebung überführt. Die für die Modellbildung eingesetzten Algorithmen werden von den Anbietern dieser Methode allerdings nicht veröffentlicht.
Für jede Datei werden tausende von Merkmalen überprüft, um Schadcode von erwünschten Dateien zu unterscheiden. Daher lässt sich Malware unabhängig von „äußerlichen“ Veränderungen mit einer hohen Treffsicherheit identifizieren, wenn sie beispielsweise gepackt wurde oder wenn sie noch nie aufgetreten ist. Unerkannt bliebe hier nur ein Angreifer, der völlig neue Verfahren und ganz neue Werkzeuge verwenden würde; aber auch das nur bis zur ersten Identifikation.
Phase 4: Klassifizierung
Sind die Modelle vorhanden, so können sie in einer Engine, die der Anbieter bereitstellt und die lokal oder via Cloud genutzt werden kann, in Echtzeit zur Klassifizierung unbekannter Dateien vor der Ausführung verwendet werden. Das Ergebnis ist ein „Confidence Score“ für jede untersuchte Datei – ein Prozentwert, der angibt, wie verlässlich beziehungsweise gefährlich die jeweilige Datei ist. Mit diesem Score kann ein Administrator über das weitere Schicksal der Datei entscheiden, also beispielsweise sie blockieren, überwachen oder freigeben. Eine derartige Analyse dauert nur Millisekunden und benötigt erheblich weniger Ressourcen – hinsichtlich RAM und CPU – als herkömmliche Analyseverfahren; auch die täglichen Signatur-Updates entfallen hier.
Mehrstufiger Prozess
Anders als die herkömmliche Malware-Analyse können die ML-Modelle aber nicht nur gute und schädliche Dateien unterscheiden, sondern auch verdächtige identifizieren. Sobald der Score niedriger als 20 Prozent ist, handelt es sich um Software, die man weiter untersuchen sollte. Dabei muss es sich nicht unbedingt um Malware handeln, es können auch Administrations-Tools sein, die benutzt werden, um Sicherheitsrichtlinien oder Mechanismen zu umgehen oder auch um Systeme zu missbrauchen. Mit dem ML-Verfahren gibt es also auch keine Grauzone zwischen echter Malware und dem, was auf den Whitelists steht.
Der Begriff „Machine Learning“ zur Charakterisierung dieses Verfahrens ist leider etwas missverständlich, da das Lernen nur ein Teilschritt im Prozess ist, während der eigentliche Kern die Entwicklung der merkmalgesteuerten Modelle ist. „Model Based Protection“ wäre hier vielleicht ein treffenderer Begriff gewesen, aber Machine Learning ist nun mal eingeführt; und worauf es ankommt ist schließlich, dass die Sache funktioniert.
In der Praxis wird man natürlich die signaturbasierenden Methoden nicht einfach durch das ML-Verfahren ersetzen, sondern einen mehrstufigen Prozess einrichten. Dabei kann eine signaturbasierende Vorfilterung etwa mit Windows Defender erfolgen, und was dabei nicht erkannt wurde, wird vom ML-Verfahren übernommen. Das Schutzniveau lässt sich so deutlich erhöhen und auch Ransomware hat in diesem Umfeld kaum eine Chance mehr.
Dieser Beitrag erschien zuerst auf unserem Partnerportal Security-Insider.de
Gastkommentar
Zunehmende Cyberbedrohung für Automatisierungssysteme
Predictive Maintenance
Weissagung und Wartung
Big Data und Deep Learning
So spürt Deep Learning Datenmuster auf
* Detlev Pacholke ist Senior Solution Manager Digital Workforce & Mobility bei NTT Security.
(ID:44665460)