lundi 30 décembre 2024 - par mat-hac

Les agents autonomes sont-ils capables de nous manipuler ? Deux études récentes aux résultats troublants

0:00 - Intro
1:42 - Qu'est-ce qu'un agent autonome ?
4:01 - Un LLM peut-il mentir et manipuler sans qu'on le lui demande ?
5:30 - 1er cas : quand o1 s'exfiltre sur un autre serveur
9:25 - Limite : contamination par la fiction et "Nothing else matters"
13:28 - 2e cas : quand o1 ment effrontément
17:02 - Sans "Nothing else matters" : un cas plus convaincant

Publicité

18:58 - Un objectif long terme en prompt suffit à pousser à la manipulation
20:19 - Sans objectif long terme en prompt : les cas le plus troublants
24:20 - Sandbagging et objectif long terme acquis lors du RLHF
27:26 - Claude peut-il comprendre spontanément qu'il est testé ?

29:13 - Le résultat sur le sandbagging est curieusement négligé
30:41 - Conclusion et synthèse
31:28 - Eh non, c'est pas fini.
32:41 - Le principal résultat de l'article d'Anthropic : quand Claude feint l'alignement
37:45 - Version "prompt", version "fine-tuned", version RL
42:16 - Les scrupules de Claude
44:58 - La dimension morale des valeurs que protège Claude est-elle importante ?
48:08 - Conclusion de l'article
49:09 - Outro




Réagir