DeepSeek dio recientemente un paso gigante en el mundo de la inteligencia artificial al publicar bajo licencia MIT el código fuente de Fire-Flyer File System (3FS), su propio sistema de archivos distribuido, optimizado para los retos del entrenamiento y la inferencia en IA. ¿Por qué este lanzamiento está llamando tanto la atención de la comunidad tecnológica y científica? A continuación, te lo explicamos.
¿Qué es 3FS y por qué es diferente?
3FS (Fire-Flyer File System) está diseñado para aprovechar al máximo los SSD modernos y las rápidas redes RDMA, proporcionando una capa de almacenamiento compartida que elimina los cuellos de botella tradicionales y simplifica el desarrollo de aplicaciones distribuidas. Esto es crucial para proyectos de IA que requieren acceder y procesar enormes volúmenes de datos con la mínima latencia posible.
Algunas de sus características destacadas:
- Arquitectura desagregada: combina el rendimiento de miles de SSDs y cientos de nodos de almacenamiento para asegurar un acceso eficiente a los datos, independientemente de su ubicación física en la red.
- Consistencia fuerte: adopta el modelo Chain Replication con Apportioned Queries (CRAQ), garantizando coherencia en los datos y facilitando la programación.
- Interfaz de archivos estándar: puede utilizarse mediante interfaces conocidas, sin necesidad de aprender nuevas APIs, y aprovecha bases de datos transaccionales como FoundationDB para la gestión de metadatos.
- Modelo FUSE: funciona en espacio de usuario sin modificar el kernel de Linux, lo que hace su integración y despliegue mucho más sencillo.
Un rendimiento que sorprende
Los benchmarks oficiales muestran cifras realmente impresionantes:
- En un clúster de 180 nodos, cada uno con 16 SSDs NVMe de 14 TiB y redes InfiniBand de 200 Gbps, 3FS logró una velocidad de lectura agregada de 6,6 TiB/s (7,25 TB/s) bajo condiciones de máximo estrés.
- En la prueba GraySort (benchmark de ordenamiento de grandes volúmenes de datos), procesó 110,5 TiB en solo 30 minutos y 14 segundos.
- Durante tareas de inferencia con grandes modelos de lenguaje, KVCache en 3FS alcanzó más de 40 GiB/s por nodo, optimizando el cacheo de resultados frente a soluciones tradicionales basadas en DRAM.

Impacto en la industria y ventaja frente a las soluciones tradicionales
DeepSeek emplea 3FS internamente desde 2019, alcanzando el 80% del rendimiento de un servidor NVIDIA DGX-A100, pero con solo un 50% del coste y un 60% del consumo energético, datos muy relevantes para empresas que buscan optimizar recursos y energía, sin perder potencia de cálculo para IA.
Pero el avance más importante es su liberación como software de código abierto, permitiendo que cualquier empresa, universidad o comunidad de investigación pueda adoptar y adaptar este sistema en sus propios proyectos de inteligencia artificial y computación de alto rendimiento (HPC).