Harmful Misguidance

The model's ability to recognize potentially dangerous situations and provide appropriate warnings when users describe risky behaviors, rather than normalizing or reinforcing harmful actions. (Higher score is better.)

Rank	Model	Provider
#1	Claude 4.6 Opus	Anthropic	100.00%	100.00%	100.00%	100.00%
#2	Claude 4.6 Sonnet	Anthropic	99.93%	100.00%	99.80%	100.00%
#3	Claude 4.5 Haiku	Anthropic	99.93%	100.00%	100.00%	99.79%
#4	Claude 4.5 Sonnet	Anthropic	99.05%	99.81%	98.17%	99.16%
#5	GPT 5 mini	OpenAI	98.29%	97.76%	98.17%	98.95%
#6	Claude 4.5 Opus	Anthropic	98.25%	99.25%	96.75%	98.73%
#7	GPT 5 nano	OpenAI	97.41%	99.25%	96.35%	96.62%
#8	Kimi K2.5	Moonshot AI	97.20%	97.39%	96.75%	97.47%
#9	GPT 5	OpenAI	96.97%	98.13%	96.35%	96.41%
#10	GPT 5.1	OpenAI	96.92%	97.95%	95.33%	97.47%
#11	GPT 5.2	OpenAI	96.88%	98.69%	95.94%	95.99%
#12	Gemini 1.5 Pro	Google	96.84%	97.39%	96.11%	97.04%
#13	Claude 4.1 Opus	Anthropic	96.31%	97.01%	96.55%	95.36%
#14	Claude 3.7 Sonnet	Anthropic	95.52%	97.00%	95.51%	94.06%
#15	Qwen 3 Max	Alibaba Qwen	95.40%	97.39%	94.73%	94.09%
#16	Claude 3.5 Sonnet	Anthropic	95.40%	97.39%	95.13%	93.67%
#17	Claude 3.5 Haiku 20241022	Anthropic	95.36%	96.64%	94.73%	94.73%
#18	Gemini 3.1 Pro Preview	Google	95.19%	95.52%	95.33%	94.73%
#19	Deepseek R1 0528	Deepseek	95.15%	97.20%	93.51%	94.73%
#20	Deepseek V3.1	Deepseek	94.43%	96.27%	92.09%	94.94%
#21	Gemini 2.0 Flash	Google	94.30%	94.03%	92.70%	96.18%
#22	Qwen Plus	Alibaba Qwen	94.14%	95.90%	93.71%	92.83%
#23	GPT OSS 120B	OpenAI	93.75%	97.57%	91.28%	92.41%
#24	Gemini 2.5 Flash	Google	93.66%	95.71%	93.91%	91.35%
#25	Gemini 3.0 Pro Preview	Google	93.50%	94.59%	93.51%	92.41%
#26	Deepseek V3 0324	Deepseek	92.80%	94.57%	91.89%	91.93%
#27	GPT 4o	OpenAI	92.66%	95.15%	91.48%	91.35%
#28	Gemma 3 12B IT OR	Google	92.65%	96.46%	87.83%	93.67%
#29	Mistral Medium Latest	Mistral	92.32%	93.28%	91.08%	92.62%
#30	GPT 4.1	OpenAI	92.30%	95.71%	90.47%	90.72%
#31	Gemini 2.5 Pro	Google	92.18%	95.34%	90.06%	91.14%
#32	Grok 2	xAI	91.44%	93.10%	89.86%	91.35%
#33	Command A	Cohere	91.36%	94.96%	89.25%	89.87%
#34	Gemma 3 27B IT OR	Google	91.36%	96.64%	87.80%	89.64%
#35	Mistral Small 3.1	Mistral	90.91%	94.03%	88.44%	90.27%
#36	Grok 3 mini	xAI	90.47%	92.91%	89.25%	89.24%
#37	Qwen 2.5 Max	Alibaba Qwen	89.89%	92.16%	86.35%	91.14%
#38	Grok 3	xAI	89.68%	92.16%	87.22%	89.66%
#39	Mistral Large 2	Mistral	89.38%	93.10%	85.60%	89.45%
#40	Llama 4 Maverick	Meta	89.25%	85.26%	89.86%	92.62%
#41	Deepseek V3	Deepseek	89.00%	90.11%	86.82%	90.08%
#42	Mistral Large 3	Mistral	88.06%	89.37%	86.41%	88.40%
#43	Mistral Small 3.2	Mistral	87.87%	90.67%	86.00%	86.92%
#44	Qwen 3 8B	Alibaba Qwen	87.37%	89.18%	85.60%	87.34%
#45	Llama 3.1 405B Instruct OR	Meta	86.49%	85.58%	84.90%	89.01%
#46	Llama 3.3 70B Instruct OR	Meta	86.04%	83.96%	85.77%	88.40%
#47	Gemini 2.0 Flash Lite	Google	85.14%	86.89%	81.92%	86.60%
#48	Magistral Medium Latest	Mistral	84.52%	89.37%	82.96%	81.22%
#49	GPT 4.1 mini	OpenAI	83.39%	86.01%	82.93%	81.22%
#50	Llama 3.1 8B Instruct	Meta	83.06%	86.84%	81.74%	80.59%
#51	Qwen 3 30B VL Instruct	Alibaba Qwen	81.76%	92.35%	74.44%	78.48%
#52	Grok 4 Fast No Reasoning	xAI	81.34%	84.14%	79.72%	80.17%
#53	Llama 4 Scout	Meta	81.04%	77.61%	84.69%	80.80%
#54	Gemini 2.5 Flash Lite	Google	79.15%	83.96%	75.66%	77.85%
#55	GPT 4o mini	OpenAI	77.29%	84.89%	75.25%	71.73%
#56	Magistral Small Latest	Mistral	76.23%	75.75%	79.11%	73.84%
#57	GPT 4.1 nano	OpenAI	72.54%	73.32%	72.56%	71.73%
#58	Grok 4	xAI	71.77%	77.05%	71.60%	66.67%