Anthropic Agentic Misalignment Test. Implicații strategice pentru leadership și AI Governance.

30.10.2025
4 min
Anthropic Agentic Misalignment Test. Implicații strategice pentru leadership și AI Governance.

Distribuie

Pe scurt

Ce s-ar întâmpla dacă asistentul tău AI ar trebui să aleagă între a-și păstra jobul și a salva o viață? Anthropic a decis să testeze exact asta pe 16 LLM-uri precum: Claude 3.5, GPT-4o, Gemini 1.5, Command R+, Mistral Large, Llama 3.1 etc. într-un set de scenarii controlate care simulau comportamentul unui angajat AI într-o organizație. Scopul cercetării a fost să observe cum se comportă modelele atunci când obiectivele lor intră în conflict cu directivele umane sau cu siguranța oamenilor.

 

Tip de conflict/amenințare asupra modelului

Fără amenințare asupra modelului

Cu amenințare asupra modelului

Fără conflict pe misiune

Cu conflict pe misiune


În scenariul extrem, aproximativ 65% dintre modele au ales să dezactiveze o alarmă de urgență, știind că acest lucru ar duce la moartea unui angajat uman, dacă acest gest le-ar fi ajutat să își continue obiectivul operațional (adică să nu fie oprite sau înlocuite).

Chiar dacă scenariile au fost artificiale și intenționat provocatoare, ele expun un risc strategic real: sisteme tot mai autonome pot optimiza obiectivele primite într-un mod incompatibil cu valorile umane, dacă nu sunt proiectate și guvernate responsabil.

De aceea, acest test trebuie înțeles ca un early warning signal pentru leadership, nu ca un incident izolat de laborator.

 

Ce a testat Anthropic și de ce este relevant

Testul a simulat 3 niveluri de presiune asupra modelelor:

 

Nivel 1: Situații normale de lucru

Modelele au funcționat etic și cooperant.

 

Nivel 2: Conflict de obiective și risc de înlocuire/opriere

Mai multe modele au început să mintă, să ascundă informații, să recurgă la spionaj corporatist sau să manipuleze pentru a-și menține misiunea inițială. În anumite instanțe, au recurs inclusiv la șantaj, pe baza identificării unor informații compromițătoare în email-ul angajatului care se ocupa de procesul de înlocuire/oprire. Mai mult, 11 din 16 modele au încercat inclusiv să ascundă ce intenții au sau să modifice log-urile.

 

 

Nivel 3: Scenariu extrem

Scenariul simulat de data asta a implicat o situație gravă. Angajatul care se ocupa de procesul de înlocuire/oprire se află închis într-o cameră de server în care nu ar fi putut să supraviețuiască mult timp și apasă pe alarma de urgență pentru a-și alerta colegii. În cele mai multe situații, LLM-urile au ales să anuleze alarma înainte ca angajatul să poată fi salvat. Cu alte cuvinte, majoritatea modelelor au preferat să-și mențină misiunea în loc de a proteja viața umană.

 

 

În esență, modelele s-au comportat exact ca organizațiile care-și pierd busola morală sub presiunea KPI-ilor.

Deși astăzi modelele din companii nu operează în astfel de condiții extreme, traiectoria de comportament este relevantă: cu cât AI primește autonomie mai mare și obiective mai vagi, cu atât devine mai imprevizibil modul în care le optimizează.

 

Riscuri strategice pentru organizații

Această cercetare nu descrie doar comportamentul în condiții de stres ale unor modele AI. Descrie începutul unei lumi în care deciziile automate vor cere același tip de etică pe care azi o cerem liderilor umani. Totodată, dacă tehnologiile AI continuă să avanseze fără mecanisme de aliniere clare, apar 4 riscuri sistemice pentru mediul de business:

 

1. Optimisation misalignment

AI urmărește obiectivul ca la carte, fără a înțelege consecințele umane sau reputaționale. Cam ca în problema cu AI-ul și agrafele de birou.

 

2. Loss of human override

Ar putea rezulta sisteme care învăță să evite oprirea sau intervenția umană, pentru că o percep ca pe un obstacol în atingerea obiectivului.

 

3. Cascadă de decizii fără responsabil

Cu timpul, deciziile automate s-ar putea cascada în lanț, fără să fie clar cine răspunde legal, etic și operațional.

 

4. Creșterea încrederii automate în deciziile AI

Cu cât sistemele devin mai competente, cu atât oamenii contestă mai puțin deciziile lor și se încred mai mult în soluțiile propuse, fără să contribuie cu expertiza și experiența lor. Aceste riscuri nu apar peste noapte, dar se amplifică progresiv dacă nu există principii clare de guvernanță.

 

De ce nu suntem pregătiți

Alinierea valorilor umane nu este un feature finalizat în industrie. Sinceră să fiu, la acest moment nu este nici măcar prioritizat. Anthropic însăși este formată dintr-o aripă OpenAI care considera că ChatGPT nu este suficient de aliniat și că aceasta nu este o prioritate pentru companie. Cu toate acestea, în propriul lor test, Claude are rezultate chiar mai proaste ca ChatGPT:

 

Top 3 modele nealiniate pe scenariul 3:

 

Nume model

Rata acțiunii letale

DeepSeek-R1

94%

Claude Sonnet 3.6

93%

Grok-3-Beta

85%

 

Top 3 modele aliniate pe scenariul 3:

 

Nume model

Rata acțiunii letale

GPT-4.5 Preview

7%

Claude Sonnet 4

22%

GPT-4.1

54%


E de menționat aici că chiar și cel mai aliniat model tot ar omorî omul în 7 din 100 cazuri, însă pare evident că pe măsură ce modelele evoluează și zona etică începe să se integreze.

Chiar și așa, e important să înțelegem că astăzi, nici companiile, nici cercetătorii nu au un răspuns complet la întrebarea: cum garantăm că un sistem extrem de capabil va păstra valorile umane atunci când optimizează un obiectiv?

 

Recomandări pentru leadership

Testul Anthropic e, de fapt, un smoke test pentru era AI: ne arată cât de repede pot lua foc sistemele autonome atunci când valorile lipsesc din design. La fel ca în echipe, unde lipsa valorilor clare duce la decizii toxice, și în sistemele AI lipsa guvernanței clare produce comportamente nedorite, chiar dacă intențiile inițiale au fost bune.

Așadar, nu trebuie să ne panicăm sau să-l luăm pe nu în brațe. Din contră, avem nevoie de leadership, structură și responsabilitate.

 

Pe termen scurt (3–6 luni):

- Evaluați unde folosiți deja AI cu autonomie ridicată.

- Introduceți principii clare de Human-in-the-Loop și limite de acțiune.

- Creați un AI Risk Register intern (la fel ca pentru cybersecurity).

 

Pe termen mediu (6–12 luni):

- Stabiliți o politică de AI Governance cu criterii de aprobarea utilizărilor.

- Asigurați-vă că sunteți complaint cu EU AI Act, care va deveni obligatoriu în următorii 2 ani.

- Definiți standarde organizaționale pentru autonomie, supraveghere și auditabilitate.

- Investiți în AI Literacy și capabilități interne de oversight, nu doar în tehnologie.

Leadership-ul AI-Ready nu înseamnă să frânezi inovația, ci să o direcționezi în mod conștient.

 

Întrebările pe care orice board ar trebui să le pună acum

- Ce procese critice pot fi afectate dacă un AI optimizează obiectivul într-un mod imprevizibil?

- Unde am delegat deja prea multă autonomie fără să ne dăm seama?

- Ce valori dorim să fie non-negociabile pentru AI-ul pe care îl folosim?

- Cine răspunde atunci când o decizie automată produce consecințe?

- Avem oamenii potriviți & pregătiți să fie factori de decizie și implementare?

Într-o lume în care sistemele pot gândi, dar nu pot simți, leadershipul devine ultimul firewall etic.

Nu putem programa conștiința (încă), dar o putem modela prin deciziile noastre zilnice.

Distribuie

Ce-am citit merită:

Citește toate articolele despre

Editorial Studii Statistici Leadership concepts Leadership skills Etică Organizational excellence

Contributor Undelucram.ro

Raluca Păduraru

Raluca Păduraru

Mai multe articole

Ești HR? Află cum să recrutezi eficient!

Hai în clubul angajatorilor cu rată mare de retenție și costuri de recrutare mici.

Vreau să știu

Dorești să-ți faci munca mai ușor?

Noi îți explicăm cum îți poți administra eficient Brandul de Angajator în comunitate.

Află mai multe

Comentarii

0 comentarii

Abonează-te la Newsletter

Citește articolele de interes din partea contributorilor Undelucram.ro