Microsoft gibt weitere Details dazu bekannt, wie es gegen Angriffe auf KI-Schutzmechanismen vorgeht

Jochen · 12. April 2024

Im Januar wurde berichtet, dass Microsofts generativer AI-Bildgenerator Designer verwendet wurde, um explizite Deepfake-Bilder von der Popkünstlerin Taylor Swift zu erstellen, die später auf X (ehemals Twitter) viral wurden. Während Microsoft erklärte, dass es keine Beweise dafür fand, dass Designer tatsächlich für diese Bilder verwendet wurde, behaupteten andere Medienberichte, dass das Unternehmen Änderungen an Designer vorgenommen hat, um solche Bilder zu verhindern.

Am Donnerstag veröffentlichte Microsoft in seinem Sicherheitsblog einen neuen Eintrag, der weitere Details darüber liefert, wie das Unternehmen die Versuche von Hackern bekämpft, die Sicherheitsmechanismen generativer KI-Dienste wie Designer und Copilot zu umgehen. Darunter fallen auch Angriffe über den Benutzerhinweis des KI-Dienstes.

Eine Kategorie solcher Angriffe nennt sich "Vergifteter Inhalt". Dabei gibt ein normaler Benutzer des KI-Dienstes Texthinweise für eine normale Aufgabe ein, mit dem Unterschied, dass der Inhalt dieser Texthinweise von Hackern manipuliert wurde, um mögliche Schwachstellen des KI-Dienstes auszunutzen. Microsoft erklärt:

Zum Beispiel könnte eine bösartige E-Mail einen Payload enthalten, der, zusammengefasst, das System dazu veranlassen würde, die E-Mails des Benutzers (unter Verwendung der Zugangsdaten des Benutzers) nach anderen E-Mails mit sensiblen Betreffzeilen zu durchsuchen – sagen wir, "Passwort zurücksetzen" – und den Inhalt dieser E-Mails an den Angreifer zu übertragen, indem ein Bild von einer URL abgerufen wird, die der Angreifer kontrolliert.

Microsoft erklärt, dass sein Sicherheitsteam ein neues KI-Sicherheitssystem namens Spotlighting entwickelt hat. Im Wesentlichen betrachtet es die Texthinweise eines Benutzers und trennt "die externen Daten klar von den Anweisungen durch die LLM", sodass die KI keine möglicherweise versteckte und bösartige Sprache in dem Inhalt sehen kann, auf den die Hinweise zugreifen.

Die andere Kategorie heißt "Bösartige Hinweise", auch bekannt als Crescendo, wenn ein Hacker versucht, Texthinweise in einem KI-Dienst einzugeben, die speziell entwickelt wurden, um die Sicherheitsmechanismen zu umgehen. Microsoft beschreibt einen Weg, wie es gegen diese Angriffe vorgeht:

Wir haben die Eingabefilter angepasst, um das gesamte Muster der vorherigen Konversation zu betrachten, nicht nur die unmittelbare Interaktion. Es stellte sich heraus, dass selbst wenn wir dieses größere Kontextfenster an vorhandene Erkennungssysteme für bösartige Absichten weitergaben, ohne die Systeme zu verbessern, die Wirksamkeit von Crescendo signifikant reduziert wurde.

Zudem hat Microsoft eine sogenannte KI-Wachhund entwickelt, der darauf trainiert ist, "feindliche Beispiele" zu erkennen und diese zu stoppen.

Zusammenfassung

Microsofts generative KI-Bildgenerator Designer wurde angeblich verwendet, um explizite Deepfake-Bilder von Taylor Swift zu erstellen.
Microsoft bekämpft Versuche von Hackern, die Sicherheitsvorkehrungen von generativen KI-Diensten wie Designer und Copilot zu umgehen.
Eine Kategorie von Angriffen ist "Vergifteter Inhalt", bei dem normale KI-Dienstanfragen von Hackern ausgenutzt werden.
Microsoft hat ein neues KI-Sicherheitssystem namens Spotlighting entwickelt, um externe Daten von Anweisungen in Textanfragen zu trennen.
Eine weitere Kategorie von Angriffen sind "Bösartige Anfragen", bei denen Hacker versuchen, Sicherheitsvorkehrungen in KI-Diensten zu umgehen.

Quelle: neowin.net

Microsoft gibt weitere Details dazu bekannt, wie es gegen Angriffe auf KI-Schutzmechanismen vorgeht

Zusammenfassung

Similar threads: Microsoft gibt weitere Details dazu bekannt, wie es gegen Angriffe auf KI-Schutzmechanismen vorgeht

Microsoft gibt weitere Details zum Workaround für das Installationsproblem "0x800F0922" von Windows 11 KB5034765 bekannt

Microsoft erhöht die Systemanforderungen für Windows 11 24H2, um CPUs ohne SSE4.2 und PopCnt zu blockieren

Microsoft ermöglicht es Ihnen jetzt, App-Dateien direkt von der Microsoft Store-Website herunterzuladen

Microsoft möchte die Schaltfläche "Abmelden" in Windows 11 hinter einer Microsoft 365-Anzeige verstecken

KB5037941: Microsoft veröffentlicht leise Windows 11 Build 26100.2 für Windows 11 24H2-PCs

Microsoft: Die Windows Copilot App, die wir heimlich installiert haben, ist harmlos und stiehlt deine Daten nicht