Instala y ejecuta Meta-LLaMA-3-8B-Instruct en Docker de manera manual o automática

Guía completa: Levantar Meta-LLaMA-3-8B-Instruct Server en Docker paso a paso

Este post explica cómo instalar y correr Meta-LLaMA-3-8B-Instruct usando Docker siguiendo la documentación oficial. Se presentan dos formas de manejar la descarga del modelo.

1️⃣ Prerrequisitos

Docker instalado y corriendo en tu sistema.
Al menos 16–32 GB de RAM según modelo.
Crear carpeta para modelos:

mkdir -p /home/docker/llama3-server/models
cd /home/docker/llama3-server

2️⃣ Opciones para descargar y usar el modelo

Opción A – Descargar el modelo fuera del contenedor (recomendado)

1. Descargar el modelo directamente en la carpeta models:

cd /home/docker/llama3-server/models
wget https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf

2. Crear docker-compose.yml:

services:
  llama-server:
    image: ghcr.io/ggml-org/llama.cpp:server
    container_name: llama3-server
    ports:
      - "8600:8600"
    volumes:
      - ./models:/models
    command: >
      -m /models/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
      --host 0.0.0.0
      --port 8600
      --ctx-size 4096
      --threads 4
      --n-gpu-layers 0

3. Levantar el contenedor:

docker-compose up -d

4. Probar el servidor:

curl http://localhost:8600/completion \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Hola, ¿cómo estás?", "n_predict": 128}'

Opción B – Descargar el modelo dentro del contenedor usando un Dockerfile

1. Crear Dockerfile en /home/docker/llama3-server:

FROM ghcr.io/ggml-org/llama.cpp:server

WORKDIR /models

# Descargar el modelo durante el build
RUN wget -O Meta-Llama-3-8B-Instruct.Q4_K_M.gguf \
  https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf

2. Modificar docker-compose.yml para que use el build:

services:
  llama-server:
    build: .
    container_name: llama3-server
    ports:
      - "8600:8600"
    volumes:
      - ./models:/models
    command: >
      -m /models/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf
      --host 0.0.0.0
      --port 8600
      --ctx-size 4096
      --threads 4
      --n-gpu-layers 0

3. Construir la imagen y levantar el contenedor:

docker-compose build
docker-compose up -d

4. Probar el servidor con el mismo curl que en la opción A.

3️⃣ Referencias útiles

✅ Consejo: La opción A mantiene tu contenedor más liviano y te permite actualizar modelos sin reconstruir la imagen. La opción B automatiza todo pero obliga a reconstruir si cambia el modelo.

Anotador de Informatica

Buscar este blog

Instala y ejecuta Meta-LLaMA-3-8B-Instruct en Docker de manera manual o automática

Guía completa: Levantar Meta-LLaMA-3-8B-Instruct Server en Docker paso a paso

1️⃣ Prerrequisitos

2️⃣ Opciones para descargar y usar el modelo

Opción A – Descargar el modelo fuera del contenedor (recomendado)

Opción B – Descargar el modelo dentro del contenedor usando un Dockerfile

3️⃣ Referencias útiles

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Instalación y Configuración de MySQL 5.7 en Ubuntu 24.04 LTS

Instalar DeepSeek R1 1.5B en Ubuntu 24.04 sin GPU

Instalar Jasper Studio 6.21 para Ubuntu 24.04