Ollama

Herramienta para ejecutar grandes modelos de lenguaje (LLM) directamente en tu ordenador, sin necesidad de depender de servicios en la nube. Esto significa que puedes tener tu propio asistente virtual o chatbot personal sin enviar tus datos a servidores externos.

Docker

services:
  chatbot:
    image: ghcr.io/ivanfioravanti/chatbot-ollama:main
    ports:
      - 3000:3000
    environment:
      - DEFAULT_MODEL=llama2
      - OLLAMA_HOST=http://ollama:11434
  ollama:
    image: ollama/ollama
    volumes:
      - ./app:/root/.ollama
      - ./models:/ollama/models
    environment:
      - OLLAMA_MODELS=/ollama/models
    restart: unless-stopped
    ports:
      - 11434:11434

Tras arrancar los contenedores, descargaremos un modelo para que luego lo use el chatbot, por ejemplo el llama2:

docker exec -it <CONTENEDOR> ollama pull llama2

Ya podremos acceder a http://localhost:3000 y comenzar a interactuar.

Hay que tener como mínimo 8 GB de RAM y es recomendable tener una tarjeta gráfica dedicada para acelerar el cómputo.

Uso

Descargar modelos

ollama pull <NOMBRE_DEL_MODELO>

Podemos elegir cualquier de los de su biblioteca.

Ejecutar un modelo

ollama run <NOMBRE_DEL_MODELO>

Recursos

Biblioteca de modelos para Ollama