Roboflow ha lanzado tres nuevos tamaños de modelos para su revolucionaria arquitectura RF-DETR, consolidándose como la familia de modelos de detección de objetos más rápida y precisa disponible en la actualidad.
La evolución de RF-DETR continúa
En marzo de 2025, Roboflow introdujo RF-DETR, el primer modelo de detección de objetos en tiempo real que alcanza más de 60 mAP cuando se valida en el benchmark de Microsoft COCO. Hoy, la compañía amplía esta familia con tres nuevos tamaños de modelos que establecen nuevos estándares de rendimiento: Nano, Small y Medium.
RF-DETR («Roboflow detection transformer») es una arquitectura basada en transformadores de detección en tiempo real diseñada para transferir bien tanto a una amplia variedad de dominios como a conjuntos de datos grandes y pequeños. Está desarrollado para proyectos que necesitan un modelo que pueda funcionar a altas velocidades con un alto grado de precisión, a menudo con recursos computacionales limitados.
Rendimiento excepcional en benchmarks
Los nuevos modelos RF-DETR han sido evaluados utilizando tanto el benchmark de Microsoft Common Objects in Context (MS COCO) como Roboflow 100 Vision Language (RF100-VL). Mientras que COCO permite comparaciones fáciles con familias de modelos anteriores, RF100-VL mide la adaptabilidad del dominio utilizando una selección de 100 conjuntos de datos de código abierto que representan cómo se aplica la visión por computadora a problemas del mundo real.
Resultados de RF-DETR por tamaño de modelo:
Familia | Tamaño | COCO mAP50 | COCO mAP50:95 | RF100VL mAP50 | RF100VL mAP50:95 | Latencia (ms) |
---|---|---|---|---|---|---|
RF-DETR | Nano | 67.6 | 48.4 | 84.1 | 57.1 | 2.32 |
RF-DETR | Small | 72.1 | 53.0 | 85.9 | 59.6 | 3.52 |
RF-DETR | Medium | 73.6 | 54.7 | 86.6 | 60.6 | 4.52 |
Superando a la competencia
Cuando se compara con otros modelos transformer en tiempo real actuales (D-FINE, LW-DETR) y arquitecturas CNN YOLO (YOLO11), RF-DETR supera a todos los enfoques en velocidad y precisión:
- RF-DETR-Small es 1.8 puntos superior que YOLO11-x (el modelo YOLO11 más grande) en mAP50:95 COCO, con una mejora de velocidad de 7.77 ms de latencia
- Los modelos RF-DETR más pequeños superan a los modelos YOLO más grandes tanto en velocidad como en precisión
Comparación completa de rendimiento:
Familia | Tamaño | COCO mAP50 | COCO mAP50:95 | RF100VL mAP50 | RF100VL mAP50:95 | Latencia (ms) |
---|---|---|---|---|---|---|
RF-DETR | Nano | 67.6 | 48.4 | 84.1 | 57.1 | 2.32 |
RF-DETR | Small | 72.1 | 53.0 | 85.9 | 59.6 | 3.52 |
RF-DETR | Medium | 73.6 | 54.7 | 86.6 | 60.6 | 4.52 |
YOLO11 | n | 52.0 | 37.4 | 81.4 | 55.3 | 2.49 |
YOLO11 | s | 59.7 | 44.4 | 82.3 | 56.2 | 3.16 |
YOLO11 | m | 64.1 | 48.6 | 82.5 | 56.5 | 5.13 |
La velocidad mostrada es la latencia de GPU en una T4 usando TensorRT10 FP16 (ms/img), siguiendo el concepto de «latencia total» que popularizó LW-DETR.
Disponibilidad y acceso
Los tres nuevos tamaños de modelo RF-DETR están disponibles para:
- Entrenamiento en la nube con la plataforma Roboflow
- Uso local con el paquete Python de código abierto RF-DETR
- Despliegue con Roboflow Inference, el servidor de inferencia de visión por computadora
- Integración con Roboflow Workflows para construir aplicaciones de visión por computadora
Los modelos también pueden ejecutarse en la nube con la API Roboflow Serverless V2 y en despliegues dedicados de CPU o GPU aprovisionados en Roboflow.
El futuro de RF-DETR
Roboflow ha anunciado que continuará desarrollando RF-DETR basándose en la retroalimentación de la comunidad. Las principales prioridades incluyen:
- Optimización para dispositivos edge
- Soporte CoreML para dispositivos Apple
- Soporte en navegador con Inference.js
- Cabezales de segmentación y clasificación con la arquitectura RF-DETR
La compañía también anticipa la publicación de un paper académico con detalles arquitectónicos sobre cómo RF-DETR logró resultados de vanguardia en detección de objetos.
RF-DETR representa un avance significativo en la detección de objetos en tiempo real, combinando la velocidad necesaria para aplicaciones edge con la precisión requerida para implementaciones de producción. Con su licencia Apache 2.0 y disponibilidad de código abierto, RF-DETR está posicionado para convertirse en el estándar de facto para proyectos de visión por computadora que requieren tanto velocidad como precisión.