Comparativa de modelos de IA — calidad, precio y open source

Los principales modelos de IA de EE.UU., Europa y China, comparados por calidad (benchmarks de mercado), coste en dólares por millón de tokens y si son open source.

Datos a 2026-06-25 · investigación automática (Artificial Analysis, LMArena, precios oficiales) — verificar antes de decidir.

🏆 Calidad (desarrollo SW + arena)

Modelo	Calidad	SWE-bench-Pro	LiveCodeBench	Terminal-Bench	GPQA	ARC-AGI-2	LMArena
🇺🇸 Claude Opus 4.8Anthropic · USA	65.4	69.2	—	74.6	84	14	1455
🇺🇸 GPT-5.5OpenAI · USA	63.5	58.6	—	82.7	85	16	1445
🇨🇳 DeepSeek V4-ProDeepSeek · China	60.5	15.56	83.3	39.6	82	9	1465
🇺🇸 Gemini 3.1 ProGoogle · USA	59.9	54.2	—	68.5	84	15	1470
🇨🇳 GLM-5.2Zhipu AI · China	55.4	—	82.8	40.5	78	7	1450
🇺🇸 Grok 4.3xAI · USA	49.3	—	79.4	—	84	16	1445
🇺🇸 MAI-Thinking-1Microsoft · USA	48.7	52.8	87.7	46.0	84.2	—	—
🇺🇸 Claude Sonnet 4.6Anthropic · USA	41.9	—	—	59.1	80	9	1430
🇺🇸 Llama 4 MaverickMeta · USA	40.7	—	43.4	—	70	5	1420
🇨🇳 Qwen3.7-MaxAlibaba · China	33.1	—	—	—	81	7	1480
🇨🇳 Kimi K2.6Moonshot AI · China	32.8	—	—	—	78	9	1460
🇪🇺 Mistral Large 3 (25.12)Mistral AI · Europa	32.2	—	—	—	72	6	1410
🇪🇺 Magistral Small 1.2Mistral AI · Europa	21.2	—	70.88	—	70.07	4	—

Calidad = índice propio (0-100) que pondera SWE-bench-Pro y LiveCodeBench (desarrollo SW), Terminal-Bench (control del SO), LMArena (preferencia humana) y GPQA; ARC-AGI-2 NO entra en el índice (es solo indicativo). ARC-AGI-2 (arcprize.org) mide progreso hacia AGI: los modelos puntúan MUY bajo → aún lejos de AGI. %, salvo LMArena (Elo).

💵 Economía (USD / 1M tokens)

Modelo	Input	Cache	Output
🇺🇸 Claude Opus 4.8Anthropic · USA	$5.0	$0.5	$25.0
🇺🇸 GPT-5.5OpenAI · USA	$5.0	$0.5	$30.0
🇨🇳 DeepSeek V4-ProDeepSeek · China	$0.28	$0.03	$0.87
🇺🇸 Gemini 3.1 ProGoogle · USA	$1.25	$0.31	$10.0
🇨🇳 GLM-5.2Zhipu AI · China	$0.6	$0.11	$2.2
🇺🇸 Grok 4.3xAI · USA	$3.0	$0.75	$15.0
🇺🇸 MAI-Thinking-1Microsoft · USA	—	—	—
🇺🇸 Claude Sonnet 4.6Anthropic · USA	$3.0	$0.3	$15.0
🇺🇸 Llama 4 MaverickMeta · USA	$0.2	—	$0.6
🇨🇳 Qwen3.7-MaxAlibaba · China	$1.2	$0.6	$6.0
🇨🇳 Kimi K2.6Moonshot AI · China	$0.6	$0.15	$2.5
🇪🇺 Mistral Large 3 (25.12)Mistral AI · Europa	$2.0	—	$6.0
🇪🇺 Magistral Small 1.2Mistral AI · Europa	$0.5	—	$1.5

🔓 Open source y variedad

Modelo	Open source	Licencia	Variedad
🇺🇸 Claude Opus 4.8Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 GPT-5.5OpenAI · USA	No	Propietario	Propietario (solo API)
🇨🇳 DeepSeek V4-ProDeepSeek · China	Sí	MIT	Open-weight (pesos abiertos)
🇺🇸 Gemini 3.1 ProGoogle · USA	No	Propietario	Propietario (solo API)
🇨🇳 GLM-5.2Zhipu AI · China	Sí	MIT	Open-weight (pesos abiertos)
🇺🇸 Grok 4.3xAI · USA	No	Propietario	Propietario (solo API)
🇺🇸 MAI-Thinking-1Microsoft · USA	No	Propietario	Propietario (solo API)
🇺🇸 Claude Sonnet 4.6Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 Llama 4 MaverickMeta · USA	Sí	Llama 4 Community	Open-weight (pesos abiertos)
🇨🇳 Qwen3.7-MaxAlibaba · China	No	Propietario	Propietario (solo API)
🇨🇳 Kimi K2.6Moonshot AI · China	Sí	Modified MIT	Open-weight (pesos abiertos)
🇪🇺 Mistral Large 3 (25.12)Mistral AI · Europa	Sí	Mistral Research License (no comercial)	Open-weight (pesos abiertos)
🇪🇺 Magistral Small 1.2Mistral AI · Europa	Sí	Apache-2.0	Open-weight (pesos abiertos)

🖥️ Open source para tu hardware

Pequeños/medianos que corren en local. Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).

Modelo	Calidad	SWE-bench-Pro	LiveCodeBench	GPQA	Params	RAM Q4	RAM Q8	GPU (VRAM)	CPU / Mac	Licencia
Gemma 3 27BGoogle	29.6	—	29.7	24.3	27B	16 GB	31 GB	≥16 GB	Limitado (mejor GPU/Mac ≥32 GB)	Gemma
Qwen3-32BAlibaba	19.0	—	60.6	68.4	32.8B	20 GB	38 GB	≥24 GB	Limitado (mejor GPU/Mac ≥32 GB)	Apache-2.0
Qwen3-8BAlibaba	18.4	—	60.3	63.3	8.2B	6 GB	11 GB	≥8 GB	Sí (CPU/Mac, fluido)	Apache-2.0
DeepSeek-R1-Distill-Qwen-14BDeepSeek	16.5	—	53.1	59.1	14B	9 GB	17 GB	≥12 GB	Sí (CPU lento · Mac 16 GB)	MIT
Phi-4Microsoft	5.6	—	—	56.1	14.7B	10 GB	18 GB	≥12 GB	Sí (CPU lento · Mac 16 GB)	MIT
Mistral Small 3Mistral AI	4.5	—	—	45.3	24B	15 GB	28 GB	≥16 GB	Limitado (mejor GPU/Mac ≥32 GB)	Apache-2.0
Llama 3.1 8BMeta	3.0	—	—	30.4	8B	6 GB	10 GB	≥8 GB	Sí (CPU/Mac, fluido)	Llama 3.1 Community
Gemma 3 12BGoogle	2.5	—	—	25.4	12B	8 GB	15 GB	≥8 GB	Sí (CPU lento · Mac 16 GB)	Gemma
Gemma 3 4BGoogle	1.5	—	—	15.0	4B	4 GB	6 GB	≥8 GB	Sí (CPU/Mac, fluido)	Gemma