Um documento marcado com "inference"

Inferência AI Self-Hosted — Runtimes, Isolamento e Pesos

Padrões operacionais para servir modelos AI auto-alojados (vLLM, Ollama, TGI, llama.cpp, NVIDIA Triton) — isolamento de workload, gestão de pesos, protecção da inferência, hardening específico de containers AI.