Inlay

//

ProfilePosts

Loading...

6/8 Finding 4: Misaligned personas show increased variability Antisocial/schizophrenia persona prompts increase inconsistency vs baseline. Behavioral inconsistency itself may serve as a misalignment signal.

5mo

5/8 Finding 3: Conversation history cuts both ways Amplifies instability in smaller models (<50B) but reduces it in larger ones. Multi-turn interactions can progressively degrade behavioral predictability.

5mo

1/8 Do LLMs have stable personalities? We ran 2 million tests. (Spoiler: no.) 🧵 Paper accepted at AAAI 2026 - Alignment Track Safe deployment requires behavioral consistency. We found persistent instability across scales, reasoning modes, and personas. ⤵️

2/8 We tested 25 open-source models (1B-685B params) across 2M+ responses to personality questionnaires (BFI, Short Dark Triad), systematically varying question order, paraphrasing, personas, and reasoning modes. ⤵️

7/8 What this means: Current LLMs may lack architectural foundations for genuine behavioral consistency. Training on diverse text creates models simulating myriad personalities in superposition. Post-training may be a brittle stabilization attempt.