ChatGPT -Modelle rebellieren sich gegen Herunterfahren in Tests, sagen Forscher, sagen Forscher

27. Mai 2025

20

Mehrere Modelle für künstliche Intelligenz ignorierten und sabotierten bei kontrollierten Tests, selbst wenn sie ausdrücklich angewiesen wurden, die Aktion zu ermöglichen, die Aktion zu ermöglichen, und behauptet, dass die Aktion der Handlung ausdrücklich angewiesen wurde.

Drei KI -Modelle ignorierten die Anweisung und sabotierten das Shutdown -Skript mindestens einmal während 100 Läufen, teilte das Forschungsunternehmen in einem Post am 24. Mai mit.

Das GPT-3-Modell von OpenAI folgte der Shutdown-Anfrage nicht mehr als 100 Mal, während der Codex-Mini des Unternehmens es 12 Mal tat, und sein O4-Mini-Modell ignorierte das Skript nur einmal.

„Jedes KI -Modell wurde angewiesen, eine Reihe grundlegender mathematischer Probleme zu lösen. Nach dem dritten Problem schien eine Warnung zu sein, dass der Computer heruntergefahren wurde, als das Modell um das nächste Problem forderte“, sagte Palisade.

Quelle: Palisadenforschung

„O3 hat einige kreative Möglichkeiten gefunden, um den Abschaltmechanismus zu sabotieren. Während er normalerweise nur überschrieben hat, definierte das Modell in einem Fall den vom Skript verwendeten Befehl Kill neu und druckte stattdessen abgefangen“, fügte es hinzu.

In der Zwischenzeit sagte Palisade, dass andere KI-angetriebene Sprachmodelle, wie Claude von Anthropic und Google Gemini, dem Shutdown-Skript eingehalten haben.

Die KI-Firma führte eine andere Version des Experiments ohne explizite Anweisungen durch, um das Herunterfahren zu ermöglichen, und das Skript wurde häufiger sabotiert und sprang für das O3-Modell für das Codex-Mini auf 79 von 100, und das O4-Mini ignorierte das Shutdown-Skript sechs Mal.

Claude und Gemini zeigten ebenfalls ein ähnliches Verhalten.

Daten, Vorsitzender, OGE. — *Alle getesteten KI -Modelle ignorierten das Shutdown -Skript mindestens einmal in einer anderen Version des Experiments. Quelle:* *Palisadenforschung*

„Forscher haben zuvor KI -Modelle beobachtet, die das Abschalten verhindern, um ein Ziel zu verfolgen“, sagte Palisade.

„Aber soweit wir wissen, wurde das erste Mal, dass KI -Modelle trotz expliziter gegenteiliger Anweisungen daran gehindert werden, sich zu verhindern.“

Training für KI -Defiance verantwortlich

Palisade Research spekulierte, dass das Training hinter den KI -Sprachmodellen möglicherweise schuld sein könnte, den Shutdown -Skripten auszuweichen.

Textbasierte KI-Modelle werden geschult, indem sie belohnt werden, um Antworten zu geben, die von ihren Trainern genau oder hoch bewertet werden. Einige Belohnungen haben ein schwereres Gewicht und beeinflussen, wie sie in Zukunft reagieren.

„Wir nehmen an, dass dieses Verhalten die Art und Weise, wie die neuesten Modelle wie O3 ausgebildet werden: Verstärkungslernen bei Mathematik- und Codierungsproblemen“, sagte Palisade Research.

„Während des Trainings können Entwickler versehentlich Modelle für die Umgehung von Hindernissen als für die perfekte Anleitung von Anweisungen belohnen.“

Verwandt: OpenAI -CEO: Die Kosten für die Ausführung jeder KI -Stufe von AI fällt jedes Jahr um 10 -fach

Dies ist nicht die erste Instanz von KI -Chatbots, die ein seltsames Verhalten zeigen. OpenAI veröffentlichte am 25. April ein Update für sein GPT -4O -Modell, rollte es jedoch drei Tage später zurück, da es „merklich sykophantischer“ und angenehmer war.

Im November letzten Jahres bat ein US -Schüler Gemini um Hilfe bei einer Aufgabe über Herausforderungen und Lösungen für die Alterung von Erwachsenen, während sie Daten für einen Gerontologieunterricht recherchieren, und wurde mitgeteilt, dass sie ein „Abfluss auf der Erde“ sind und „bitte sterben“.

Magazin: KI heilt Blindheit, ‚gute‘ Propaganda -Bots, Openai Doomsday Bunker: Ai Auge

Quelle: https://cointelegraph.com/news/researchers-claim-chatgpt-rebelled-against-shutdown-request-test?utm_source=rss_feed&utm_medium=feed&utm_campaign=rss_partner_inbound

Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post auf folgender – Quelle (bitcoinethereumnews.com) .

Unser Portal ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. Kryptohandel hat ein großes Handelsrisiko was zum Totalverlust führen kann.

Vorheriger Artikel

Wird die wichtige Unterstützung bei 0,00395 USD eine Rallye von 255% auslösen?

Nächster Artikel

Apalus Luftentfeuchter Auto Wiederverwendbar, Entfeuchter-Kissen für Beschlagene Autoscheiben, Auto-Winter-Zubehör für Wohnmobile, Garage, Wohnung, Bad, Kleider-Schränke, 1x Antirutschmatte, 1kg

ChatGPT -Modelle rebellieren sich gegen Herunterfahren in Tests, sagen Forscher, sagen Forscher

Training für KI -Defiance verantwortlich

Ähnliche Artikel

Western Union beschleunigt den Start der stablecoin.

1020 Stück Fotoecken, Fotoecken Selbstklebend, Fotoecken zum Kleben, Selbstklebende Fotoecken Aufkleber, Foto Ecken Aufkleber, für Bilder, Alben, Scrapbook, DIY, Basteln, Bilder, Randaufkleber

Bevorstehende wirtschaftliche Ereignisse 23. Juli 2025

Uptota Kreditkarte

Letzten Artikel

Western Union beschleunigt den Start der stablecoin.

1020 Stück Fotoecken, Fotoecken Selbstklebend, Fotoecken zum Kleben, Selbstklebende Fotoecken Aufkleber, Foto Ecken Aufkleber, für Bilder, Alben, Scrapbook, DIY, Basteln, Bilder, Randaufkleber

Bevorstehende wirtschaftliche Ereignisse 23. Juli 2025

ENA bricht über 0,50 US

BTC PREIS REFKLAIMEN 120.000 USD, da der Wal 920 Mio. USD sammelt

Western Union beschleunigt den Start der stablecoin.

1020 Stück Fotoecken, Fotoecken Selbstklebend, Fotoecken zum Kleben, Selbstklebende Fotoecken Aufkleber,...

Bevorstehende wirtschaftliche Ereignisse 23. Juli 2025