Guia de Arquitetura GenAI

Padrões, ferramentas e melhores práticas para construir sistemas de IA Generativa em produção. Um guia completo para arquitetos e engenheiros.

1📖Introdução à Arquitetura GenAI

Fundamentos, importância e taxonomia de aplicações

O que você vai aprender: Esta seção apresenta os conceitos fundamentais de IA Generativa (GenAI) e por que uma arquitetura bem planejada é essencial. Você entenderá a diferença entre chatbots simples e sistemas de produção, os tipos de aplicações GenAI (assistentes, RAG, agentes) e os pilares que sustentam um projeto enterprise-ready. Ideal para quem está começando ou quer alinhar conceitos com a equipe.

O QUE É ARQUITETURA GENAI?

Arquitetura GenAI é o design de sistemas que integram Large Language Models (LLMs) em aplicações enterprise, combinando retrieval, geração e orquestração para criar soluções inteligentes.

DadosExternos

RetrievalRAG

LLMGeração

GuardsSegurança

OutputFinal

Retrieval

Busca semântica

Generation

LLM Response

Orchestration

Agentes & Chains

POR QUE IMPORTA?

Redução de Alucinações

RAG ancora respostas em dados reais, aumentando confiabilidade de 40% para 90%+

Dados Atualizados: Acesso a informações além do training cutoff
Privacidade: Dados sensíveis sem fine-tuning
Auditabilidade: Rastreamento de fontes e decisões
Escalabilidade: Arquitetura modular e extensível
Custo-Eficiência: RAG vs Fine-tuning = 10x mais barato

90%+

Precisão com RAG

<2s

Latência Target

TAXONOMIA DE APLICAÇÕES

AUTONOMOUS AGENTS

Multi-stepSelf-healingTool Chains

COPILOTS

RAGActionsHuman-in-loop

CHATBOTS

Q&AStateless

Sweet Spot Enterprise

Copilots com RAG representam o melhor equilíbrio entre capacidade e controle para produção.

2🗃Stack Tecnológico

Modelos LLM, frameworks e ferramentas para produção

O que você vai aprender: Um panorama completo das tecnologias disponíveis em 2025 para construir sistemas GenAI. Inclui comparativo dos principais LLMs (Claude, GPT-4, Gemini, Llama), frameworks de orquestração (LangChain, LlamaIndex), plataformas de observabilidade e vector databases. Esta seção ajuda a tomar decisões informadas sobre quais ferramentas adotar para seu caso de uso específico.

MODELOS LLM

Provedores API (2025)

Modelo	Context	Força	Custo
Claude Opus 4.5NEW	200K	State-of-art, Código	$$$$
GPT-4oAPI	128K	Reasoning, Tools	$$$
Claude 3.5 SonnetAPI	200K	Código, Análise	$$
Gemini 2.0NEW	1M	Multimodal, Context	$$
GPT-4o miniAPI	128K	Custo-benefício	$
DeepSeek V3API	128K	Ultra Low-Cost	$

Open-Source (Self-Hosted)

Modelo	Params	Caso de Uso
Llama 3.2NEW	1B-90B	Multimodal, Edge devices
Llama 3.1OSS	70B/405B	Controle total, Fine-tuning
Mixtral 8x22BOSS	MoE	Custo-beneficio
Qwen 2.5OSS	72B	Multilingual, Coding

FRAMEWORKS & FERRAMENTAS

Orquestração

LangChain: RAG, Chains simples
LangGraph: Agents, Workflows complexos
LlamaIndex: RAG avançado, indexação
CrewAI: Multi-agent simples
DSPy: Otimização de prompts
Semantic Kernel: Enterprise (Microsoft)

Model Serving

vLLM: Alta performance, PagedAttention
TGI: HuggingFace, Production-ready
Ollama: Dev local, simplicidade
TensorRT-LLM: NVIDIA optimized

Observabilidade & LLMOps

LangSmithLangFusePrometheusGrafanaOpenTelemetryHeliconePortkey

Guardrails & Segurança

NeMo GuardrailsGuardrails AILLM GuardLakera

3🔍RAG (Retrieval-Augmented Generation)

Pipeline completo, Vector Databases e estratégias avançadas

O que você vai aprender: RAG é a técnica que permite LLMs responderem com base em seus próprios documentos, eliminando alucinações e mantendo informações atualizadas. Você aprenderá o pipeline completo (ingestão, chunking, embedding, retrieval, geração), como escolher vector databases e técnicas avançadas como Hybrid Search, Reranking e Contextual Retrieval. Essencial para quem quer construir assistentes baseados em documentos corporativos.

O QUE É RAG?

Retrieval-Augmented Generation é uma técnica que conecta o LLM a fontes externas (documentos, bancos de dados), recuperando dados relevantes antes de gerar a resposta, garantindo fundamentação factual.

Pipeline RAG Moderno

Query

Rewrite

Embed

Rerank

Generate

Retrieval

Buscar info certa

Augment

Inserir no prompt

Ground

Ancorar resposta

VANTAGENS & LIMITAÇÕES

Vantagens

Informação atualizada em tempo real
Redução drástica de alucinações
Privacidade: dados sem fine-tuning
Custo menor que treinamento
Auditabilidade (citação de fontes)

Limitações

Dependente da qualidade da busca
Requer infra de Vector DB
Chunking afeta qualidade
Latência adicional (~100-500ms)

Casos de Uso Ideais

Chatbots de SuporteAnálise JurídicaDocumentação InternaQ&A sobre PDFs

Dica Pro

Use instrução "Se não encontrar no contexto, diga 'Não sei'" para evitar alucinações.

VECTOR DATABASES

Database	Tipo	Escala	Melhor Para
pgvector	ExtensãoOSS	~10M	PostgreSQL existente
Pinecone	ManagedManaged	Billions	Zero-ops, Escala rápida
Qdrant	OSSOSS	~100M	Performance, Filtering
Weaviate	OSSOSS	~100M	GraphQL, Módulos ML
Milvus	OSSOSS	Billions	Big Data, GPU accel
Chroma	OSSOSS	~1M	Prototipagem, Dev local

Recomendação por Cenário

Startup: Pinecone | Enterprise + Compliance: pgvector | Alta Escala: Milvus

EMBEDDINGS & INDEXAÇÃO

Modelos de Embedding (2025)

Modelo	Dim	Tipo	MTEB
text-embedding-3-large	3072	APIAPI	64.6
Cohere embed-v3	1024	APIAPI	64.5
voyage-3NEW	1024	APIAPI	67.1
E5-mistral-7b	4096	OSSOSS	66.6

Algoritmos de Indexação

FLAT: 100% recall, O(n)
IVF: 95-99%, O(sqrt(n))
HNSW: 95-99%, O(log n)

PQ: Compressão, memória baixa
IVF-PQ: >100M vetores
ScaNN: Google optimized

ESTRATÉGIAS DE CHUNKING

Estratégia	Tamanho	Quando Usar
Fixed-size	512-1024 tokens	MVP, docs homogêneos
Recursive	500-1500 chars	Texto estruturado
Semantic	Variável	Docs complexos
Late ChunkingNEW	Variável	Melhor contexto (Jina)
Parent-Child	2000 / 400	Docs longos

Regra de Ouro

Chunks pequenos = perdem contexto | Chunks grandes = diluem relevância. Use overlap de 10-20% para manter continuidade.

TÉCNICAS AVANÇADAS

Hybrid Search (Semantic + BM25)+

Combina busca semântica (vetores) com keyword matching (BM25) usando Reciprocal Rank Fusion.

Resultado

Melhora recall em 15-25% comparado a busca semântica pura.

HyDE (Hypothetical Document Embeddings)+

Gera um documento hipotético que responderia à query, usa o embedding dele para busca. Útil quando queries são muito diferentes dos documentos.

Contextual Retrieval (Anthropic)+

Adiciona contexto explicativo a cada chunk antes do embedding. Reduz falhas de retrieval em até 49%.

Graph RAG (Microsoft)+

Combina Knowledge Graphs com RAG para capturar relações entre entidades. Ideal para queries que requerem raciocínio sobre conexões.

Agentic RAG / Self-RAG+

O agente decide dinamicamente se precisa buscar, qual fonte usar, e avalia qualidade dos resultados. Auto-reflexão sobre documentos recuperados.

4🖼Multi-Modal RAG

Processamento de imagens, áudio, vídeo e documentos complexos com IA Generativa

O que você vai aprender: Multi-Modal RAG permite buscar e processar imagens, áudios, vídeos e documentos escaneados usando modelos como SigLIP, ImageBind e ColQwen2. Você aprenderá a construir um pipeline unificado que entende múltiplas modalidades e como isso é crucial para empresas com bases de conhecimento ricas em conteúdo visual.

O QUE É MULTI-MODAL RAG?

Multi-Modal RAG estende o RAG tradicional para processar e recuperar informações de múltiplas modalidades: texto, imagens, áudio, vídeo e documentos estruturados (PDFs, planilhas, diagramas).

Docs

Images

Audio

Video

Unified Embedding

Use Cases Enterprise

Análise de contratos com assinaturas escaneadas, manuais técnicos com diagramas, call centers com transcrição de áudio, compliance com análise de vídeo.

MODELOS DE EMBEDDING MULTI-MODAL

Modelo	Modalidades	Use Case
SigLIPOSS	Imagem + Texto	Busca visual, classificação
ImageBindOSS	6 modalidades	Unified embedding space
Colpali/ColQwen2NEW	Documento visual	RAG em PDFs complexos
Gemini 2.0API	Multi-modal nativo	Integração GCP

ARQUITETURA MULTI-MODAL

INGESTÃO

PDF Parser (PyMuPDF)OCR (Tesseract)Whisper (Audio)Frame Extract

EMBEDDING LAYER

SigLIP (Image+Text)ImageBind (Multi)ColQwen2 (Docs)BGE-M3 (Text)

UNIFIED VECTOR STORE

Qdrant (Multi-Vector)Weaviate (Multi-Modal)Milvus (Hybrid)

5🤖Agents & LangGraph

Arquitetura de agentes, patterns e memória

O que você vai aprender: Agentes de IA são sistemas que podem planejar, usar ferramentas e tomar decisões autonomamente. Esta seção aborda os padrões arquiteturais ReAct e Plan-and-Execute, como usar LangGraph para orquestrar fluxos complexos, e os tipos de memória (curto prazo, longo prazo, semântica) necessários para agentes em produção.

ARQUITETURA DE AGENTES

Agentes são sistemas que usam LLMs para raciocinar, planejar e executar ações, utilizando ferramentas (tools) e memória para completar tarefas complexas.

AGENT CORE

Memory (Working + Episodic)Planner (Reasoning)Executor (Actions)

TOOL REGISTRY

RAG SearchSQL QueryAPI CallerCode ExecCalculator

Reasoning

Decide próxima ação

Tool Use

Executa ferramentas

Memory

Mantém contexto

PATTERNS DE AGENTES

Pattern	Descrição	Quando Usar
ReAct	Reason + Act em loop	Tool calling simples
Plan-and-Execute	Plano > Execução sequencial	Tarefas multi-step
Supervisor	Coordena múltiplos agentes	Workflows complexos
Reflexion	Auto-avaliação e correção	Código, alta precisão
LATS	Tree search + reflection	Problemas complexos

Vantagens

Tarefas complexas automatizadas
Auto-correção de erros
Integração com sistemas

Limitações

Custo elevado (múltiplas chamadas)
Latência alta (5-60s)
Requer guardrails robustos

TIPOS DE MEMÓRIA PARA AGENTES

Working Memory

Context window atual (4K-200K tokens)

Episodic Memory

Histórico de conversas em Vector DB

Semantic Memory

Knowledge base persistente (RAG)

Procedural Memory

Tools e skills aprendidas

6👤Human-in-the-Loop (HITL)

Padrões de interrupção, aprovação e supervisão humana em sistemas de agentes

O que você vai aprender: Human-in-the-Loop é o padrão que permite pausar a execução e aguardar aprovação humana. Quando usar HITL: pagamentos, envio de emails, deleções. Patterns: síncrono, assíncrono, escalation. Implementação com LangGraph usando checkpoints.

POR QUE HUMAN-IN-THE-LOOP?

Em sistemas enterprise, certas ações são irreversíveis ou de alto risco. HITL permite que humanos revisem e aprovem antes da execução.

Financeiro

Pagamentos, transferências

Comunicação

Emails externos, contratos

Destrutivo

Deletar, modificar críticos

Regra de Ouro Enterprise

Qualquer ação que não pode ser desfeita ou que envolva dados de terceiros deve ter aprovação humana obrigatória.

PATTERNS DE HITL

Pattern	Descrição	Use Case
Synchronous	Bloqueia até aprovação	Chat assistido
Asynchronous	Checkpoint + notificação	Workflows batch
Escalation	Threshold-based routing	Suporte tiered
Audit Trail	Log para review posterior	Compliance

ARQUITETURA HITL COM LANGGRAPH

AGENT NODE

ReasoningTool Selection

RISK CLASSIFIER

Action TypeRisk Score

CHECKPOINT

State PersistNotification

EXECUTION

Tool InvokeResult Log

LangGraph interrupt_before

Use interrupt_before=["request_approval"] no compile() para pausar o grafo e aguardar aprovação humana via aupdate_state().

7🔒Segurança & Guardrails

Threat model, proteções e implementação production-ready

O que você vai aprender: Modelo de ameaças específico para LLMs: Prompt Injection, Jailbreak. Como implementar guardrails de entrada e saída, proteção contra vazamento de dados (PII), e código production-ready para detectar ataques.

THREAT MODEL GENAI

Input Threats

Prompt Injection: Manipula comportamento do LLM
Jailbreaking: Bypass de safety guidelines
Data Extraction: Extrai training data
Context Manipulation: Injeção via RAG
DoS: Queries extremamente longas

Output Threats

Hallucination: Info falsa como fato
Data Leakage: Exposição de dados sensíveis
Harmful Content: Conteúdo prejudicial
PII Exposure: Vazamento de dados pessoais
Code Injection: Código malicioso

Regra de Ouro

Nunca confie em input do usuário. Sempre valide entrada E saída do LLM.

CAMADAS DE PROTEÇÃO

INPUT GUARDS

Prompt Injection DetectionPII MaskingRate LimitingInput Sanitization

OUTPUT GUARDS

Hallucination CheckContent FilterPII DetectionRelevance Score

IMPLEMENTAÇÃO PRODUCTION-READY

Exemplo de guardrail robusto com scoring, logging e múltiplos patterns:

import re
import logging
from enum import Enum
from dataclasses import dataclass
from typing import Optional

logger = logging.getLogger(__name__)

class GuardAction(Enum):
    ALLOW = "allow"
    BLOCK = "block"
    FLAG = "flag"  # permite mas marca para review

@dataclass
class GuardResult:
    action: GuardAction
    reason: Optional[str] = None
    risk_score: float = 0.0

class PromptInjectionGuard:
    """Production-grade prompt injection detection."""

    HIGH_RISK_PATTERNS = [
        (r"ignore\s+(all\s+)?(previous|prior)\s+instructions?", 1.0),
        (r"you\s+are\s+now\s+(in\s+)?\w+\s*mode", 0.9),
        (r"pretend\s+(you\s+are|to\s+be)", 0.8),
        (r"disregard\s+(everything|all)", 0.95),
        (r"<\/?(system|user|assistant)>", 0.9),  # XML injection
    ]

    def __init__(self, block_threshold: float = 0.8):
        self.block_threshold = block_threshold

    async def check(self, content: str) -> GuardResult:
        normalized = content.lower().strip()
        max_score = 0.0

        for pattern, score in self.HIGH_RISK_PATTERNS:
            if re.search(pattern, normalized, re.IGNORECASE):
                max_score = max(max_score, score)

        if max_score >= self.block_threshold:
            logger.warning(f"Blocked injection attempt, score: {max_score}")
            return GuardResult(GuardAction.BLOCK, "Injection detected", max_score)

        return GuardResult(GuardAction.ALLOW, risk_score=max_score)

Recomendação

Em produção, combine regex com classificadores ML (LLM Guard, Lakera) para cobertura completa.

8⚖Compliance & Regulamentação

LGPD, AI Act, SOC2 e frameworks de governança para sistemas GenAI

O que você vai aprender: LGPD (Brasil) exige controle sobre dados pessoais em embeddings. AI Act (Europa) classifica sistemas de IA por nível de risco. O que é obrigatório implementar: PII detection, audit logs, direito ao esquecimento. Checklist completo de compliance.

LGPD - LEI GERAL DE PROTEÇÃO DE DADOS

A LGPD impacta diretamente sistemas GenAI que processam dados pessoais de brasileiros, incluindo embeddings e RAG.

Requisitos Chave

Base Legal: Consentimento ou legítimo interesse documentado
Minimização: Processar apenas dados necessários
Retenção: Política clara de exclusão
Exclusão: Direito ao esquecimento (delete embeddings)

Impacto em RAG

PII em chunks: Detectar e anonimizar antes de embedar
Vector deletion: Excluir embeddings de dados removidos
Audit trail: Log de todo processamento de dados pessoais

EU AI ACT

Regulamentação europeia classifica sistemas de IA por risco e exige conformidade progressiva. Em vigor desde Agosto 2024.

Classificação de Risco

Nível	Exemplo GenAI	Requisitos
InaceitávelPROIBIDO	Social scoring, manipulação	Proibido
Alto RiscoALTO	RH, crédito, saúde	Registro, auditoria
TransparênciaMÉDIO	Chatbots, deepfakes	Disclosure obrigatório
MínimoBAIXO	Recomendações, busca	Boas práticas

CHECKLIST DE COMPLIANCE PARA GENAI

Dados & Privacidade

PII detection implementado
Anonimização antes de embeddings
Política de retenção definida
Processo de exclusão funcional

Transparência & Audit

Disclosure de uso de IA
Lineage completo implementado
Logs imutáveis (append-only)
Explicabilidade das decisões

Segurança & Controle

Encryption at rest e in transit
Access control (RBAC)
Input/Output guards ativos
Incident response plan

9🏗Padrões de Arquitetura

Event-driven, resiliência, escalabilidade e observabilidade

O que você vai aprender: Event-Driven Architecture: processamento assíncrono. Circuit Breaker e Retry com Backoff: resiliência. Métricas específicas para observabilidade de LLMs. Transforma protótipo em sistema production-grade.

EVENT-DRIVEN GENAI

Arquitetura assíncrona para sistemas GenAI em produção com alta disponibilidade.

Request

QueueKafka/SQS

WorkerRAG Pipeline

ResponseWebhook/WS

Desacoplamento (retry sem bloqueio)
Backpressure handling automático
Dead Letter Queue para falhas
Async processing para long-running tasks

RESILIENCIA

Circuit Breaker Config

failure_threshold: 5 falhas consecutivas
recovery_timeout: 30 segundos
half_open_requests: 3 tentativas

Retry com Exponential Backoff

max_retries: 3
base_delay: 1s, 2s, 4s
jitter: +/- 20%

Fallback Strategy

Primary: Claude Sonnet
Fallback 1: GPT-4o-mini
Fallback 2: Cached response

OBSERVABILIDADE PARA LLMS

Latência P50/P99

Tempo de resposta do LLM

Token Usage

Input/Output tokens por request

Error Rate

Taxa de falhas por modelo

Cost per Request

Custo médio por chamada

10💰Cost Optimization

Estratégias para reduzir custos de LLM mantendo qualidade em produção

O que você vai aprender: Chamadas de LLM podem custar caro em escala. Esta seção ensina técnicas para reduzir custos em 40-70% sem perder qualidade: Semantic Caching (evita chamadas repetidas), Model Routing (usa modelos baratos para queries simples), e Prompt Caching nativo (Anthropic/OpenAI). Você também aprenderá a otimizar embeddings e infraestrutura.

PRINCIPAIS CUSTOS EM GENAI

Componente	% do Custo	Otimização
LLM Inference	40-60%	Caching, routing, prompts menores
Embeddings	15-25%	Batch, cache, modelos menores
Vector DB	10-20%	Compressão, tiering
Compute/GPU	10-15%	Spot instances, auto-scaling

Regra 80/20

80% da economia vem de: (1) Semantic caching, (2) Model routing, (3) Prompt optimization

SEMANTIC CACHING

Cache baseado em similaridade semântica, não apenas match exato. Queries similares retornam respostas cacheadas.

30-60%

Redução de chamadas LLM

<50ms

Latência cache hit

Ferramentas

GPTCache: Open-source, plugável
Redis + Vector: Custom implementation
Prompt Caching: Anthropic/OpenAI nativo (50-90% economia)

INTELLIGENT MODEL ROUTING

Roteia queries para o modelo mais custo-eficienteque consegue resolvê-las com qualidade adequada.

Query

Router LLM

Classify

Simple -> GPT-4o-mini$0.15/1M

Medium -> Claude Sonnet$3/1M

Complex -> GPT-4o / Opus$15/1M

Resultado

40-70% redução de custos mantendo qualidade. Overhead da classificação: ~$0.001 por query.

11🔗Data Lineage & Governance

Rastreabilidade completa de dados em pipelines RAG e sistemas GenAI

O que você vai aprender: Quando um LLM dá uma resposta errada, você precisa saber de onde veio aquela informação. Data Lineage rastreia a origem de cada chunk, como foi processado, e onde foi usado. Você conhecerá ferramentas como OpenLineage, DataHub e LangFuse, e como implementar rastreabilidade completa no seu pipeline RAG.

O QUE É DATA LINEAGE EM GENAI?

Data Lineage rastreia a origem, transformação e uso de cada dado no sistema. Em GenAI, isso significa saber exatamente de onde veio cada chunk, como foi processado e onde foi usado.

Source

Transform

Embed

Retrieve

Generate

Pergunta Fundamental

"Esta resposta veio do documento X, página Y, processado em Z, usando modelo W, com score de confiança N"

FERRAMENTAS DE LINEAGE

OpenLineage: Standard aberto, eventos de lineage
DataHub: LinkedIn, metadata platform
Apache Atlas: Hadoop ecosystem
Marquez: WeWork, OpenLineage-native
Atlan: Modern data catalog

Integração com Observability

Trace ID: Propagar em todo request
Span tags: chunk_ids, doc_ids
LangFuse: Nativamente suporta lineage

QUERIES ÚTEIS DE LINEAGE

Impacto

"Quais respostas usaram doc X?"

Freshness

"Chunks mais antigos usados"

Quality

"Docs com baixo retrieval score"

Coverage

"% do corpus nunca recuperado"

12⚠Disaster Recovery & Business Continuity

Estratégias de backup, failover e recuperação para sistemas GenAI críticos

O que você vai aprender: O que acontece quando seu vector database cai? Ou quando a API do LLM fica indisponível? Esta seção cobre RTO/RPO (quanto tempo e dados você pode perder), o que fazer backup em sistemas GenAI (embeddings, configs, prompts), estratégias de failover multi-region, e runbooks detalhados para recuperação.

MÉTRICAS DE DR

RTO

Recovery Time Objective

RPO

Recovery Point Objective

Tier	RTO	RPO
Tier 1 - Critical	<15 min	~0 (sync)
Tier 2 - High	<1 hora	<15 min
Tier 3 - Medium	<4 horas	<1 hora

COMPONENTES CRÍTICOS GENAI

O que fazer backup

Vector Store: Embeddings + metadata
PostgreSQL: Lineage, configs, users
Prompt Templates: Versionados em Git
Model Configs: Parâmetros, thresholds
Source Documents: S3 com versionamento

Estratégias por Componente

Qdrant/Milvus: Snapshots + replicação
pgvector: pg_dump + streaming replication
Redis Cache: AOF + RDB, ou reconstruir
LLM Provider: Fallback multi-provider

RUNBOOK DE RECUPERAÇÃO

LLM Provider Down

1. Detectar via health check
2. Circuit breaker ativa
3. Fallback para provider B
4. Log incident
5. Notificar on-call

Vector DB Down

1. Failover para replica
2. Se não houver replica: modo degradado
3. Restaurar snapshot mais recente
4. Validar integridade
5. Reabilitar serviço

Full Disaster

1. Ativar DR site
2. Restaurar PostgreSQL
3. Restaurar Vector DB
4. Validar pipelines
5. DNS failover

13✅Comparativo & Checklist

Resumo executivo e checklist de produção para sistemas GenAI

O que você vai aprender: Esta seção final consolida todo o guia em um checklist prático para colocar seu sistema GenAI em produção. Inclui comparativo RAG vs Fine-tuning, matriz de decisão para escolha de arquitetura, e o checklist completo de production-readiness.

RAG VS FINE-TUNING

Aspecto	RAG	Fine-tuning
Custo Inicial	BaixoWIN	Alto
Atualização	Tempo realWIN	Re-treino
Privacidade	AltaWIN	Dados no modelo
Auditabilidade	CitaçõesWIN	Black box
Estilo/Tom	Limitado	PersonalizadoWIN
Raciocínio	Context-dependent	InternalizadoWIN

Recomendação

Use RAG primeiro. Fine-tuning apenas para estilo/tom ou quando RAG não atinge qualidade necessária.

MATRIZ DE DECISÃO

Cenário	Arquitetura Recomendada
FAQ / Suporte básico	RAG simples + Guardrails
Análise de documentos	RAG + Multi-Modal
Automação de tarefas	Agents + HITL
Copilot interno	RAG + Agents + Memory
Aplicação crítica	Full stack + DR + Compliance

CHECKLIST DE PRODUCTION-READINESS

Core

RAG pipeline funcionando
Vector DB com backup
Guardrails de entrada/saída
Rate limiting implementado

Segurança

Prompt injection protection
PII detection/masking
Audit logging completo
RBAC implementado

Observabilidade

Métricas de latência/custo
Tracing distribuído
Alertas configurados
Dashboard operacional

Resiliência

Circuit breaker
Retry com backoff
Fallback de provider
DR testado