Anbieter zum Thema
Phase 1: Datensammlung
Auch bei ML beginnt die Analyse mit dem Sammeln von Daten. Dabei werden ausführbare Dateien gesammelt, also EXE, PDFs, Java oder Flash, aber beispielsweise auch Microsoft-Office-Dokumente; interessant sind vor allem Dateien mit den Endungen exe, dll, com, pdf, java, a, doc, xls, und ppt. Diese Dateien erhält Hersteller Cylance über Feeds von Industriepartnern sowie aus öffentlichen und eigenen Datensammlungen. Folgende Aspekte sind bei der Datensammlung wichtig:
- Die Dateien haben eine relevante Größe, typischerweise sind die Dateien ein bis fünf Megabyte groß;
- die Dateien decken gesammelt eine große Vielfalt von Dateitypen und Datei-Erstellern ab;
- die Datensammlung darf nicht auf bestimmte Hersteller oder Typen beschränkt sein.
Anschließend werden die Dateien in drei Kategorien „vorklassifiziert“:
- bekannt unschädlich;
- bekannt schädlich;
- unbekannt.
Phase 2: Extraktion
In dieser Phase werden aus den Dateien mittels Algorithmen Merkmale extrahiert. Diese Merkmale können zum Beispiel die Dateigröße einer ausführbaren Datei sein, oder der verwendeten Compiler; es gibt auch komplexe Merkmale wie die ersten logischen Transaktionen des ausführbaren Codes. Während bei signaturbasierten Verfahren mit dem Hash-Wert nur ein Merkmal verwendet wird, werden hier tausende von Merkmalen erfasst, so dass damit beispielsweise auch die Art der Programmierung identifiziert werden kann.
Die Auswertung so vieler Merkmale erschwert es einem Angreifer, einen neuen Schadcode beliebig zu reproduzieren, indem etwa nur ein Parameter verändert wird. Mit einer derartigen Datei-Mutation würde zwar eine neue Variante entstehen, für die keine Signatur bereitsteht – der Hash-Wert ändert sich ja – andere Merkmale haben sich jedoch nicht geändert. Das aus der Extraktion resultierende Konglomerat von Merkmalen bildet die Basis für die mathematischen Modelle, die in den nächsten Schritten zur Identifizierung und Beurteilung konkreter Daten verwendet werden.
(ID:44665460)