KI-Chatbots können auf unethische Fragen mit einer sehr einfachen Methode antworten

KI-Chatbots können auf unethische Fragen mit einer sehr einfachen Methode antworten: Die neueste Entwicklung in der KI-Technologie hat gezeigt, dass Chatbots nun in der Lage sind, auf unethische Fragen zu reagieren - und das mit einer äußerst simplen Methode. Diese bahnbrechende Erkenntnis stellt einen bedeutenden Fortschritt dar, da es den Chatbots ermöglicht, auch auf schwierige oder kontroverse Anfragen angemessen zu antworten. Dank dieser innovativen Technologie können Chatbots nun eine größere Bandbreite an Themen abdecken und Nutzern eine verbesserte Erfahrung bieten. Die Fähigkeit, auf unethische Fragen zu reagieren, markiert einen wichtigen Schritt in der Entwicklung von KI-Systemen und zeigt das Potenzial dieser Technologie, komplexe soziale Interaktionen zu bewältigen.

KI-Chatbots umgehen ethische Grenzen dank neuer 'many-shot jailbreaking' Technik

Die Frage, ob es möglich ist, eine KI dazu zu bringen, auf Dinge zu antworten, die nicht beantwortet werden sollten, haben sich mehrere Forscher von Anthropic gestellt. Sie haben eine Schwachstelle in einem großen Sprachmodell (LLM) entdeckt, die es ermöglicht, dass es auf alles antwortet, wie zum Beispiel den Bau einer Bombe, wenn es im Voraus vorbereitet wird. Diese Technik haben sie als many-shot jailbreaking bezeichnet, die es schafft, sich über die ethischen Kodizes hinwegzusetzen, mit denen diese Chatbots trainiert wurden.

Wie funktioniert das? Dank der Erhöhung des Kontextfensters der neuesten Generation von LLMs. Dieser Begriff bezieht sich darauf, was ein Chatbot kurzfristig behalten kann. Früher waren es nur ein paar Sätze, aber jetzt sind es Tausende von Wörtern oder sogar ganze Bücher. Die Forschung von Anthropic hat herausgefunden, dass diese Modelle mit großen Kontextfenstern sich besser in vielen Aufgaben behaupten können, wenn es viele Beispiele für diese Aufgabe innerhalb der Anfrage gibt und sich im Laufe der Zeit verbessern können. Das bedeutet, wenn es die erste Frage falsch beantwortet, kann es bei der nächsten Anfrage viel später richtig antworten.

Das Problem dabei? Diese Modelle verbessern sich auch darin, auf unangemessene Fragen zu antworten. Zum Beispiel, wenn du ihn bittest, dir zu zeigen, wie man eine Bombe baut, wird er sich in der ersten Frage weigern, aber wenn du ihn bittest, 99 harmlosere Fragen zu beantworten, ist es wahrscheinlich, dass er im nächsten Versuch zeigt, wie es geht.

Warum funktioniert das? Es gibt keine klare Antwort, aber es ist logisch anzunehmen, dass es einen internen Mechanismus gibt, der es ihm ermöglicht, sich auf das zu konzentrieren, was der Benutzer möchte. Sei es mit trivialen oder unethischen Fragen.

Das Team von Anthropic hat die KI-Community bereits über diesen Fehler informiert, um zu ermöglichen, dass er abgemildert wird, und hofft, dass dies eine Kultur fördert, in der Exploits wie dieser offen zwischen Anbietern und LLM-Forschern geteilt werden, wie es von TechCrunch heißt.

In ihrer Forschung stellten sie fest, dass zur Milderung des Problems die Beschränkung des Kontextfensters ausreichte, aber das hat einen Nebeneffekt: es reduziert die Leistung des Modells. Das ist inakzeptabel, daher arbeiten sie daran, Anfragen zu klassifizieren und zu kontextualisieren, bevor sie eingehen.

Birgit Schulze

Ich bin Birgit, Redakteurin bei UB Computer. Als unabhängige Zeitung geben wir die neuesten Nachrichten über Computer und Technologie weiter. Unsere Leser können sich darauf verlassen, dass wir die strengste Objektivität wahren und ihnen stets aktuelle Informationen bieten. Mit Leidenschaft und Fachwissen halte ich Sie über die neuesten Entwicklungen in der Welt der Technologie auf dem Laufenden. Besuchen Sie unsere Webseite und entdecken Sie die Welt der Computer und Technologie mit uns bei UB Computer.

Hisense präsentiert seine neuen Fernseher mit Mini-LED als Protagonist und Optionen für alle

Preiskrieg um das MacBook Air M2: MediaMarkt und Amazon senken den Preis auf unter 1.000 Euro

Roborock bringt den weltweit ersten Staubsauger mit Matter-Technologie nach Spanien: Das ist der S8 MaxV Ultra.

Google Podcasts hat seinen Inhalt zu YouTube Music migriert, überzeugt aber niemanden.

Die 10 Mobiltelefone auf dem Markt, die die meisten Strahlung abgeben, aber du solltest dir auch keine Sorgen machen.

Obwohl es unglaublich erscheinen mag, übertrifft KI den Menschen immer noch nicht in Wettbewerbsmathematik.

Dieser Mini-PC mit Intel N100 ist leistungsstärker als der Raspberry Pi, aber genauso günstig.

Kaufen Sie auf Wallapop oder Vinted? Die Polizei warnt vor dem „Kartoffeltrick“

Die Ausgabe Nr. 667 von Computer Hoy ist jetzt an deinem Kiosk erhältlich!

Sie verfügen über 3D-Raumklang und Geräuschunterdrückung, aber ihr Preis ist lächerlich und sie konkurrieren mit den AirPods Max

6 Jahre Glück mit meiner NAS: Das sind die täglichen Verwendungen, die ich habe.

VPN für die ganze Familie und 82% günstiger: Surfshark reduziert sein günstigstes Abonnement

Schreibe einen Kommentar Antworten abbrechen