Project Glasswing
Wie sind die Meinungen zu Anthropics Mythos Preview? Metaanalyse zu Project Glasswing Firefox Entwickler berichten, dass sie im 150 Release, 271 bugs durch Mythos Preview beheben konnten. Laut ihrem Artikel war es ihnen möglich durch das neue Modell und ein neues Harnessing ihre Quote an gepatchten Bugs signifikant steigern. Die IT-Security Firma XBOW hat Mythos ebenfalls evaluiert und sieht das Modell als signifikanten Schritt nach vorne. XBOW sieht die Stärken des Modells in der Analyse von Source Code und beim Reverse Engineering, wobei das Modell auffällig gut in der Lage war False Positives zu identifizieren. XBOW sieht aber Limitierungen beim on-site Pentesting. Mythos allein reicht laut XBOW nicht aus um Sicherheitsdefizite in einer Softwareinfrastruktur zu identifizieren. Hierbei gilt allerdings zu beachten, dass XBOW als Security Dienstleister auch Interesse daran hat weiterhin nachgefragt zu bleiben. Cloudflare erklärt in einem ausführlichen Artikel, dass Mythos für sie Stärken in der Code Analyse gezeigt hat. Am beeindruckendsten waren dabei die Fähigkeiten zur Verkettung mehrerer Exploits und die Präzision beim Validieren von Schwachstellen. Besonders bemerkenswert ist hierbei der von Cloudflare verwendete Harness (Geschirr oder Gurt). Einige der Agents laufen dabei in vielen parallelen Instanzen, die meisten Agents sind sogar in der Lage selbst weitere Agents zu starten. Sicherheitsforscher der Firma Calif haben eine speicherbasierten Exploit für Apples M5 Chip gefunden. Die Implementation des Exploits enthält neben 2 Schwachstellen zahlreiche weitere Techniken und erlaubt einem Nutzer ohne Privilegien Root Rechte zu erlangen. Mythos Preview half dabei bei der Identifikation der Bugs und der Exploit-Entwicklung. Das renommierte AI Security Institute (Department for Science, Innovation & Technology UK) hat bei seiner Evaluation in dem Modell einen sehr klaren Entwicklungsschritt erkannt. Bei Capture-The-Flag aufgaben zeigte Mythos durchweg sehr gute Leistungen und brillierte besonders bei hohen Schwierigkeitsgraden. Außerdem ist Mythos Preview das erste Modell, welches “The Last Ones” erfolgreich abschließen konnte. Dabei handelt es sich um die Simulation eines Angriffs auf ein Unternehmensnetzwerk mit 32 Schritten. Bei einem komplexeren Parkour scheiterte Mythos Preview allerdings. Das AISI schließt daraus, dass Mythos Preview in der Lage ist Systeme mit schwachen/schlechten Security-Standarts kompromittieren kann. Der Information Security Experte Davi Ottenheimer äußert sich in seinem Blog relativ kritisch zu dem Bericht. Seiner Meinung nach sind die Zahlen extrem aufgeblasen, so basieren beispielsweise die allermeisten der 250 gennanten Firefox Exploits auf zwei Bugs. Er findet die genutzen Benchmarks problematisch und zieht außerdem den Vergleich zu Fuzzing, da sehr viele Agents gleichzeitig den Code nach Lücken durchforsten. Hierbei wundert sich Ottenheimer warum keine Vergleich mit potentent Fuzzingsystemen gezogen wird. Er vermutet hinter der Kommunikation um Mythos Preview sehr viel Marketing. AISLE ein renommiertes Unternehmen, welches KI und IT-Security verbindet hat die Code-Abschnitte der von Anthropic genannten Schwachstellen isoliert und acht verschiedenen, kleinen Modellen zugeführt. Das Ergebnis: auch kleinere Modelle waren in der Lage die Schwachstellen zu identifizieren. Bei der FreeBSD Schwachstelle gelang das sogar jedem Modell. Natürlich wurde die Modelle hier schon auf die richtige Stelle im Code verwiesen, aber das Unterhnehmen wollte damit zeigen, dass Anthropic ihr Modell doch etwas aufgeblasen hatte. AISLE bestreitet aber nicht, dass Mythos Preview ein sehr fähiges neues Modell ist. Der curl Entwickler Daniel Sternberg hat seine Codebasis durch einen Dritten mit Mythos-Zugang analysieren lassen. Der resultierende Report enthielt fünf Schwachstellen, drei davon waren False Positives und eine weitere “nur” ein Bug. Damit blieb genau eine Schwachstelle, welche eine niedrige Kritikalität hat. Dabei gilt zu beachten, dass der Code von curl bereits sehr gut abgehangen ist. Die Entwickler nutzen statische Analyse, Fuzzer und KI-unterstützte Tools um Schwachstellen zu vermeiden. Sternberg hält die Art und Weise wie Mythos veröffentlicht wurde für einen großen Marketingstunt. Er findet KI zur Codeanalyse zwar sehr nützlich, aber seinen Beobachtungen nach werden nur bekannte Schwachstellen-Arten entdeckt. Unklar ist wieviel Unterschied die neuen Harnessing Infrastrukturen bei für die Effektivität der Modelle gebracht haben. In einem Blogpost vom 22 Mai gibt Anthropic ein Update zu Glasswing. Der Inhalt lässt sich in drei Punkten zusammenfassen: Die Große Katastrophe dürfte ausbleiben: Mythos Preview ist ein sehr potentes Modell, dass besonders bei der Schwachstellensuche in Quellcode glänzen kann. Obwohl die Aufregung rund um Project Glasswing meiner Meinung nach etwas übertrieben ist, werden KI-gestützte Systeme die Möglichkeiten zur Identifikation von Sicherheitslücken stark verändern.Was ist Glasswing?
Was sagt Anthropic?
Glasswing Blogpost Red-Team Blogpost System Card Umfang Ca. 15 Seiten Ca. 30 Seiten 245 Seiten Inhalt Verkündet die geschlossene Nutzung des Modells durch ausgewählte Unternehmen, wobei der Bericht des Red-Teams referenziert wird um die Fähigkeiten des Modells zu belegen. Bericht von Anthropics Red-Team, in welchem Mythos als Werkzeug zur Sicherheitsforschung evaluiert wird. Erläutert einige Schwachstellen im Detail. Allgemeiner Technischer Bericht zu dem neuen Modell, der sich “nur” über sieben Seiten den Cybersecurity-Aspekten widmet. Link hier hier hier Welche Rückläufe gibt es nach der Veröffentlichung?
Überwiegend Positiv
Firefox
XBOW
Cloudflare
Calif
AISI
Kritisch
FlyingPenguin
AISLE
cURL
Harnessing?
Was sagt Anthropic selbst?
Meine Einschätzung