Guía completa: Levantar Meta-LLaMA-3-8B-Instruct Server en Docker paso a paso
Este post explica cómo instalar y correr Meta-LLaMA-3-8B-Instruct usando Docker siguiendo la documentación oficial. Se presentan dos formas de manejar la descarga del modelo.
1️⃣ Prerrequisitos
- Docker instalado y corriendo en tu sistema.
- Al menos 16–32 GB de RAM según modelo.
- Crear carpeta para modelos:
mkdir -p /home/docker/llama3-server/models
cd /home/docker/llama3-server
2️⃣ Opciones para descargar y usar el modelo
Opción A – Descargar el modelo fuera del contenedor (recomendado)
1. Descargar el modelo directamente en la carpeta models
:
cd /home/docker/llama3-server/models
wget https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
2. Crear docker-compose.yml
:
services:
llama-server:
image: ghcr.io/ggml-org/llama.cpp:server
container_name: llama3-server
ports:
- "8600:8600"
volumes:
- ./models:/models
command: >
-m /models/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
--host 0.0.0.0
--port 8600
--ctx-size 4096
--threads 4
--n-gpu-layers 0
3. Levantar el contenedor:
docker-compose up -d
4. Probar el servidor:
curl http://localhost:8600/completion \
-H "Content-Type: application/json" \
-d '{"prompt": "Hola, ¿cómo estás?", "n_predict": 128}'
Opción B – Descargar el modelo dentro del contenedor usando un Dockerfile
1. Crear Dockerfile
en /home/docker/llama3-server
:
FROM ghcr.io/ggml-org/llama.cpp:server
WORKDIR /models
# Descargar el modelo durante el build
RUN wget -O Meta-Llama-3-8B-Instruct.Q4_K_M.gguf \
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
2. Modificar docker-compose.yml
para que use el build:
services:
llama-server:
build: .
container_name: llama3-server
ports:
- "8600:8600"
volumes:
- ./models:/models
command: >
-m /models/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
--host 0.0.0.0
--port 8600
--ctx-size 4096
--threads 4
--n-gpu-layers 0
3. Construir la imagen y levantar el contenedor:
docker-compose build
docker-compose up -d
4. Probar el servidor con el mismo curl
que en la opción A.
3️⃣ Referencias útiles
- Documentación oficial llama.cpp Docker
- Hugging Face – Meta-LLaMA-3-8B-Instruct GGUF
- Ejemplos de uso del server
✅ Consejo: La opción A mantiene tu contenedor más liviano y te permite actualizar modelos sin reconstruir la imagen. La opción B automatiza todo pero obliga a reconstruir si cambia el modelo.
Comentarios
Publicar un comentario