Montando una IA local en una Jetson Orin Nano de 8 GB

Después de probar diferentes IA’s estos últimos años e incluso haber probado Ollama o LLmstudio en mi equipo llevaba un tiempo con la idea de tener modelos de inteligencia artificial corriendo en local en un pequeño laboratorio y que no fuese mi equipo principal de trabajo.

La razón es simple: trabajo con temas de ciberseguridad principalmente, y no me apetece enviar todo eso a servidores de terceros y que alguien acabe saliendo en presan o RRSS.

Después de leer mucho estuve mirando diferentes alternativas que no costasen demasiado dinero. Recordé que tenía una Jetson Nano de 4Gb guardada que había comprado para «emuladores». Si, así soy yo…

Pero esa Nano de 4Gb es totalmente imposible hacerla servir para IA. Uno de los principales problemas de la IA es que si o si necesitas memoria RAM y gráfica para tirar de ellas. Comprar una gráfica potente y comprar un equipo nuevo no era la versión económica.

Así que recordando que Nvidia había sacado un nuevo modelo de mini PC, la Jetson Nano Orin, adquirí una y un par de componentes más como su carcasa y algún M2 pequeñito y esperé que llegase a casa.

Lo que parecía un proyecto de una tarde acabó siendo un recorrido por varias herramientas durante semanas hasta dar con la que realmente funcionaba en este hardware.

Este artículo cuenta el camino hasta encontrar algo «decente» para jugar.

No esperes ejecutar grandes modelos. Ten en cuenta que estamos hablando de un dispositivo de 8Gb de RAM, pero con un procesador potente.

Estas son las características

NVIDIA Jetson Orin Nano 8 GB

CPU: ARM Cortex-A78AE, 6 cores, 64-bit, 1.5 GHz
GPU: NVIDIA Ampere, 1024 CUDA cores, 32 Tensor cores
RAM: 8 GB LPDDR5 (memoria unificada, compartida entre CPU y GPU)
Ancho de banda de memoria: 102 GB/s (versión Super)
Rendimiento IA: hasta 67 TOPS (versión Super, con actualización de software)
Almacenamiento: soporta NVMe (no incluido)
Conectividad: 2x MIPI CSI (cámaras), USB 3.2, Gigabit Ethernet, M.2 Key E y Key M, GPIO 40 pines
Consumo: 7W a 25W configurable
Dimensiones: 100 x 79 x 21 mm
Precio: ~249 USD (Developer Kit)
Arquitectura GPU: Ampere, compute capability 8.7
Soporte software: JetPack (L4T), CUDA, cuDNN, TensorRT, DeepStream, Isaac, Riva

El punto de partida: Ollama

Mi primera opción fue Ollama. Ya lo tenía instalado y funcionando en mi PC de sobremesa. Es cómodo, tiene una CLI sencilla, soporta Modelfiles para crear perfiles personalizados y puedes descargar modelos locales como uso de modelos Cloud que te dan como opción los de Ollama con un solo comando.

El problema no era Ollama en sí ni que a veces el software se quedaba colgado o consumía lo suyo.

En algún momento se volvía desesperante. Así que me puse a explorar alternativas más flexibles.

Ollama funciona como una caja cerrada: descargas un modelo, chateas con él y poco más. Yo quería más control sobre la inferencia, acceso a la API de forma nativa y la posibilidad ya que tengo poca RAM, exprimir la GPU al máximo.

Además, los modelos más recientes de 2026 (como los Qwen 3.5 y 3.6, o Gemma 4) tardan en llegar a Ollama. Algunos directamente no funcionan por incompatibilidades con los archivos de visión multimodal.

Con los GGUF de Hugging Face tienes acceso a todo desde el día uno.

El intento fallido: Unsloth Studio

Vi que Unsloth había lanzado una GUI bastante completa llamada Unsloth Studio. Chat con modelos locales, búsqueda integrada de modelos en Hugging Face, ejecución de código, tool calling con auto-healing, Model Arena para comparar modelos… Pintaba muy bien.

El problema: no funciona en la Jetson Orin Nano. Unsloth Studio soporta Mac, Windows y Linux x86 con NVIDIA de escritorio, pero la Jetson usa una arquitectura ARM (aarch64) con un stack de GPU diferente (JetPack/L4T). No hay forma de instalarlo.

Descartado.

Lo que funcionó: llama.cpp compilado con CUDA

Al final, lo más directo y lo que mejor resultado me dio fue compilar llama.cpp desde fuente con soporte CUDA. Sin intermediarios, sin capas de abstracción. El motor de inferencia puro conectado a la GPU de la Orin.

La compilación fue limpia, sin sorpresas. En unos minutos tenía los binarios listos. Lo mejor de llama.cpp es que trae un servidor web integrado (llama-server) que expone una GUI de chat básica y una API compatible con OpenAI. No necesitas instalar nada más para empezar a funcionar.

Descargué los modelos GGUF directamente desde Hugging Face, lancé el servidor y abrí el navegador desde mi PC. Chat funcionando a 9 tokens por segundo con aceleración por GPU. Para una máquina de menos de 350€ que cabe en la palma de la mano, más que decente.

Eligiendo los modelos: menos es más

Con 8 GB de RAM compartida entre CPU y GPU, no hay espacio para fantasías. Después de descontar lo que consume el sistema operativo, quedan unos 5-6 GB para el modelo. Eso te pone en la franja de modelos de 2-4B parámetros.

Y aquí viene la sorpresa: los modelos de 4B en 2026 no son los juguetes que eran hace un año. El Qwen3.5-4B, por ejemplo, tiene modo de razonamiento, soporta 201 idiomas y rinde bastante bien para consultas del día a día. No es un Claude ni un GPT-4, pero para analizar un log, traducir un párrafo o explicar un concepto técnico, cumple de sobra.

Acabé con tres modelos instalados, cada uno para un tipo de tarea:

  • Qwen3.5-4B — Mi modelo por defecto. Razonamiento general, consultas técnicas, ciberseguridad básica.
  • Gemma 4 E2B — Cuando necesito redactar o traducir contenido. Escribe con un tono más natural que otros modelos de su tamaño.
  • Phi-4 Mini — El rápido. Para tareas cortas donde necesito velocidad más que profundidad.

Solo cabe un modelo a la vez en memoria. Es una de las pegas, pero el cambio manual son unos segundos.

El toque final: que arranque solo

Lo último que configuré fue un servicio de systemd para que el servidor de chat arranque automáticamente cuando enciendo la Orin. Así no tengo que conectarme por SSH ni recordar ningún comando. Enciendo la máquina, abro el navegador desde cualquier dispositivo de mi red local y la IA está ahí esperando.

Si el servicio se cae, systemd lo relanza automáticamente.

Lo que me falta y lo que vendrá

La GUI de llama-server es funcional pero básica.

A partir de aquí viene lo que yo entiendo y he aprendido todo estos meses en la forma que se utiliza la IA de verdad. Trabajar con ella para tareas específicas sin entrar a duros y costosos entrenamientos de los modelos.

Crear mis propias aplicaciones que conecten con esta pequeña IA local desde una WEB por su API. Explotar esa potencia para beneficio de equipos Blue Team que es mi día a día combinando con las herramientas que ya utilizo y ahorrar tiempos.

Evidentemente, todo este trabajo se complementará con alguna IA de pago. No os voy a engañar mis lectores. Como digo a mis compañeros, mientras «la IA sea barata» hay que explotarla para poder crear tus propias herramientas complementarias. Crear esas herramientas que te faltan o son costosas y que puedes crearte una base para estar un peldaño más allá.

¿Merece la pena?

Si lo que buscas es un asistente que compita con ChatGPT o Claude en calidad de respuesta, NO. Un modelo de 4B no llega a ese nivel. Pero si lo que quieres es privacidad, independencia de servicios externos y un asistente que funcione sin internet ni suscripciones, y desde que envías la petición puedes esperar unos minutos que finalice, entonces sí.

La Jetson Orin Nano es silenciosa, consume poco, cabe en cualquier rincón y una vez configurada simplemente funciona. Para alguien que trabaja con datos sensibles o simplemente quiere tener el control de sus herramientas, tiene un valor que va más allá del rendimiento bruto.

He publicado la guía técnica completa paso a paso (en inglés) en mi repositorio de GitHub para quien quiera replicar el setup desde cero a partir del sistema operativo ya instalado.