- Microsoft gibt weitere Details dazu bekannt...
Im Januar wurde berichtet, dass Microsofts generativer AI-Bildgenerator Designer verwendet wurde, um explizite Deepfake-Bilder von der Popkünstlerin Taylor Swift zu erstellen, die später auf X (ehemals Twitter) viral wurden. Während Microsoft erklärte, dass es keine Beweise dafür fand, dass Designer tatsächlich für diese Bilder verwendet wurde, behaupteten andere Medienberichte, dass das Unternehmen Änderungen an Designer vorgenommen hat, um solche Bilder zu verhindern.
Am Donnerstag veröffentlichte Microsoft in seinem Sicherheitsblog einen neuen Eintrag, der weitere Details darüber liefert, wie das Unternehmen die Versuche von Hackern bekämpft, die Sicherheitsmechanismen generativer KI-Dienste wie Designer und Copilot zu umgehen. Darunter fallen auch Angriffe über den Benutzerhinweis des KI-Dienstes.
Eine Kategorie solcher Angriffe nennt sich "Vergifteter Inhalt". Dabei gibt ein normaler Benutzer des KI-Dienstes Texthinweise für eine normale Aufgabe ein, mit dem Unterschied, dass der Inhalt dieser Texthinweise von Hackern manipuliert wurde, um mögliche Schwachstellen des KI-Dienstes auszunutzen. Microsoft erklärt:
Microsoft erklärt, dass sein Sicherheitsteam ein neues KI-Sicherheitssystem namens Spotlighting entwickelt hat. Im Wesentlichen betrachtet es die Texthinweise eines Benutzers und trennt "die externen Daten klar von den Anweisungen durch die LLM", sodass die KI keine möglicherweise versteckte und bösartige Sprache in dem Inhalt sehen kann, auf den die Hinweise zugreifen.Zum Beispiel könnte eine bösartige E-Mail einen Payload enthalten, der, zusammengefasst, das System dazu veranlassen würde, die E-Mails des Benutzers (unter Verwendung der Zugangsdaten des Benutzers) nach anderen E-Mails mit sensiblen Betreffzeilen zu durchsuchen – sagen wir, "Passwort zurücksetzen" – und den Inhalt dieser E-Mails an den Angreifer zu übertragen, indem ein Bild von einer URL abgerufen wird, die der Angreifer kontrolliert.
Die andere Kategorie heißt "Bösartige Hinweise", auch bekannt als Crescendo, wenn ein Hacker versucht, Texthinweise in einem KI-Dienst einzugeben, die speziell entwickelt wurden, um die Sicherheitsmechanismen zu umgehen. Microsoft beschreibt einen Weg, wie es gegen diese Angriffe vorgeht:
Zudem hat Microsoft eine sogenannte KI-Wachhund entwickelt, der darauf trainiert ist, "feindliche Beispiele" zu erkennen und diese zu stoppen.Wir haben die Eingabefilter angepasst, um das gesamte Muster der vorherigen Konversation zu betrachten, nicht nur die unmittelbare Interaktion. Es stellte sich heraus, dass selbst wenn wir dieses größere Kontextfenster an vorhandene Erkennungssysteme für bösartige Absichten weitergaben, ohne die Systeme zu verbessern, die Wirksamkeit von Crescendo signifikant reduziert wurde.
Zusammenfassung
- Microsofts generative KI-Bildgenerator Designer wurde angeblich verwendet, um explizite Deepfake-Bilder von Taylor Swift zu erstellen.
- Microsoft bekämpft Versuche von Hackern, die Sicherheitsvorkehrungen von generativen KI-Diensten wie Designer und Copilot zu umgehen.
- Eine Kategorie von Angriffen ist "Vergifteter Inhalt", bei dem normale KI-Dienstanfragen von Hackern ausgenutzt werden.
- Microsoft hat ein neues KI-Sicherheitssystem namens Spotlighting entwickelt, um externe Daten von Anweisungen in Textanfragen zu trennen.
- Eine weitere Kategorie von Angriffen sind "Bösartige Anfragen", bei denen Hacker versuchen, Sicherheitsvorkehrungen in KI-Diensten zu umgehen.
Quelle: neowin.net