Offchain Labs reduce el tiempo de prueba de IA de 15 minutos a milisegundos

El desarrollador de Arbitrum, Offchain Labs, publicó el 3 de junio un artículo de investigación en el que propone un método basado en muestreo que reduce la generación de pruebas de inferencia de IA de aproximadamente 15 minutos a milisegundos.

"El modelo de precios por token crea un incentivo económico concreto para el fraude: servir un modelo de 7 mil millones de parámetros cuesta menos que uno de 70 mil millones, y ejecutar inferencia cuantizada es más barato que la precisión completa", escribieron los autores del artículo en Offchain Labs en el estudio de marzo de 2026 titulado Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference.

Las pruebas criptográficas existentes, del tipo utilizado por los rollups de conocimiento cero, pueden demostrar un cálculo correcto sin necesidad de re-ejecución, pero esquemas como zkLLM requieren aproximadamente 15 minutos para generar una única prueba de inferencia para un modelo de 13 mil millones de parámetros, un plazo incompatible con APIs que deben responder en menos de un segundo. La propuesta de Offchain Labs abandona la re-ejecución exhaustiva en favor del muestreo aleatorio: el servidor se compromete a una huella digital de los pesos del modelo y los valores internos, luego el cliente selecciona una ruta aleatoria hacia la salida y solicita al servidor que revele solo los valores a lo largo de esa ruta. Si el servidor sustituyó un modelo más pequeño, los valores serán inconsistentes y la verificación falla, acumulándose la probabilidad de detección en consultas repetidas.

El protocolo extiende la misma lógica de resolución de disputas que protege a Arbitrum One —los rollups optimistas solo re-ejecutan el paso en disputa en lugar de cada cálculo— a la inferencia de redes neuronales, utilizando un procedimiento de bisección que reduce el desacuerdo entre dos servidores en un número logarítmico de rondas. Para el mercado emergente de agentes autónomos y las industrias reguladas que requieren gobernanza de modelos, la diferencia entre una afirmación de transparencia y una afirmación verificable comienza a tener consecuencias directas.

Investigadores de Stanford documentaron que el comportamiento de GPT-3.5 y GPT-4 cambió de formas medibles entre marzo y junio de 2023 en las mismas tareas de evaluación, según el artículo, sin embargo, el contrato actual de la API no ofrece ningún mecanismo para detectar esa diferencia. El incentivo económico para la sustitución de modelos escala con el volumen: un proveedor puede redirigir una fracción de las consultas a un modelo más pequeño o cuantizado mientras cobra la tarifa del modelo más grande.

La conexión con Arbitrum es explícita en el artículo. Los rollups optimistas operan bajo la misma intuición: re-ejecutar cada paso de un cálculo largo en cada máquina es costoso, mientras que muestrear el paso en disputa es económico. El protocolo propuesto extiende esa lógica a los valores de las redes neuronales, utilizando la misma estructura de resolución de disputas basada en bisección que protege a Arbitrum One.

Para las industrias reguladas, los equipos de gobernanza de modelos y el mercado emergente de agentes autónomos, el protocolo no requiere que los desarrolladores modifiquen sus stacks existentes; solo requiere que alguien en el sistema —ya sea el proveedor, el auditor o la plataforma— produzca una declaración verificable.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.