O QUE É ARQUITETURA GENAI?
Arquitetura GenAI é o design de sistemas que integram Large Language Models (LLMs) em aplicações enterprise, combinando retrieval, geração e orquestração para criar soluções inteligentes.
Padrões, ferramentas e melhores práticas para construir sistemas de IA Generativa em produção. Um guia completo para arquitetos e engenheiros.
Arquitetura GenAI é o design de sistemas que integram Large Language Models (LLMs) em aplicações enterprise, combinando retrieval, geração e orquestração para criar soluções inteligentes.
Provedores API (2025)
| Modelo | Context | Força | Custo |
|---|---|---|---|
Claude Opus 4.5NEW | 200K | State-of-art, Código | $$$$ |
GPT-4oAPI | 128K | Reasoning, Tools | $$$ |
Claude 3.5 SonnetAPI | 200K | Código, Análise | $$ |
Gemini 2.0NEW | 1M | Multimodal, Context | $$ |
GPT-4o miniAPI | 128K | Custo-benefício | $ |
DeepSeek V3API | 128K | Ultra Low-Cost | $ |
Open-Source (Self-Hosted)
| Modelo | Params | Caso de Uso |
|---|---|---|
Llama 3.2NEW | 1B-90B | Multimodal, Edge devices |
Llama 3.1OSS | 70B/405B | Controle total, Fine-tuning |
Mixtral 8x22BOSS | MoE | Custo-beneficio |
Qwen 2.5OSS | 72B | Multilingual, Coding |
Orquestração
Model Serving
Observabilidade & LLMOps
Guardrails & Segurança
Retrieval-Augmented Generation é uma técnica que conecta o LLM a fontes externas (documentos, bancos de dados), recuperando dados relevantes antes de gerar a resposta, garantindo fundamentação factual.
Pipeline RAG Moderno
Vantagens
Limitações
Casos de Uso Ideais
| Database | Tipo | Escala | Melhor Para |
|---|---|---|---|
pgvector | ExtensãoOSS | ~10M | PostgreSQL existente |
Pinecone | ManagedManaged | Billions | Zero-ops, Escala rápida |
Qdrant | OSSOSS | ~100M | Performance, Filtering |
Weaviate | OSSOSS | ~100M | GraphQL, Módulos ML |
Milvus | OSSOSS | Billions | Big Data, GPU accel |
Chroma | OSSOSS | ~1M | Prototipagem, Dev local |
Modelos de Embedding (2025)
| Modelo | Dim | Tipo | MTEB |
|---|---|---|---|
text-embedding-3-large | 3072 | APIAPI | 64.6 |
Cohere embed-v3 | 1024 | APIAPI | 64.5 |
voyage-3NEW | 1024 | APIAPI | 67.1 |
E5-mistral-7b | 4096 | OSSOSS | 66.6 |
Algoritmos de Indexação
| Estratégia | Tamanho | Quando Usar |
|---|---|---|
Fixed-size | 512-1024 tokens | MVP, docs homogêneos |
Recursive | 500-1500 chars | Texto estruturado |
Semantic | Variável | Docs complexos |
Late ChunkingNEW | Variável | Melhor contexto (Jina) |
Parent-Child | 2000 / 400 | Docs longos |
Multi-Modal RAG estende o RAG tradicional para processar e recuperar informações de múltiplas modalidades: texto, imagens, áudio, vídeo e documentos estruturados (PDFs, planilhas, diagramas).
| Modelo | Modalidades | Use Case |
|---|---|---|
SigLIPOSS | Imagem + Texto | Busca visual, classificação |
ImageBindOSS | 6 modalidades | Unified embedding space |
Colpali/ColQwen2NEW | Documento visual | RAG em PDFs complexos |
Gemini 2.0API | Multi-modal nativo | Integração GCP |
Agentes são sistemas que usam LLMs para raciocinar, planejar e executar ações, utilizando ferramentas (tools) e memória para completar tarefas complexas.
| Pattern | Descrição | Quando Usar |
|---|---|---|
ReAct | Reason + Act em loop | Tool calling simples |
Plan-and-Execute | Plano > Execução sequencial | Tarefas multi-step |
Supervisor | Coordena múltiplos agentes | Workflows complexos |
Reflexion | Auto-avaliação e correção | Código, alta precisão |
LATS | Tree search + reflection | Problemas complexos |
Vantagens
Limitações
Em sistemas enterprise, certas ações são irreversíveis ou de alto risco. HITL permite que humanos revisem e aprovem antes da execução.
| Pattern | Descrição | Use Case |
|---|---|---|
Synchronous | Bloqueia até aprovação | Chat assistido |
Asynchronous | Checkpoint + notificação | Workflows batch |
Escalation | Threshold-based routing | Suporte tiered |
Audit Trail | Log para review posterior | Compliance |
interrupt_before=["request_approval"] no compile() para pausar o grafo e aguardar aprovação humana via aupdate_state().Input Threats
Output Threats
Exemplo de guardrail robusto com scoring, logging e múltiplos patterns:
import re
import logging
from enum import Enum
from dataclasses import dataclass
from typing import Optional
logger = logging.getLogger(__name__)
class GuardAction(Enum):
ALLOW = "allow"
BLOCK = "block"
FLAG = "flag" # permite mas marca para review
@dataclass
class GuardResult:
action: GuardAction
reason: Optional[str] = None
risk_score: float = 0.0
class PromptInjectionGuard:
"""Production-grade prompt injection detection."""
HIGH_RISK_PATTERNS = [
(r"ignore\s+(all\s+)?(previous|prior)\s+instructions?", 1.0),
(r"you\s+are\s+now\s+(in\s+)?\w+\s*mode", 0.9),
(r"pretend\s+(you\s+are|to\s+be)", 0.8),
(r"disregard\s+(everything|all)", 0.95),
(r"<\/?(system|user|assistant)>", 0.9), # XML injection
]
def __init__(self, block_threshold: float = 0.8):
self.block_threshold = block_threshold
async def check(self, content: str) -> GuardResult:
normalized = content.lower().strip()
max_score = 0.0
for pattern, score in self.HIGH_RISK_PATTERNS:
if re.search(pattern, normalized, re.IGNORECASE):
max_score = max(max_score, score)
if max_score >= self.block_threshold:
logger.warning(f"Blocked injection attempt, score: {max_score}")
return GuardResult(GuardAction.BLOCK, "Injection detected", max_score)
return GuardResult(GuardAction.ALLOW, risk_score=max_score)A LGPD impacta diretamente sistemas GenAI que processam dados pessoais de brasileiros, incluindo embeddings e RAG.
Requisitos Chave
Impacto em RAG
Regulamentação europeia classifica sistemas de IA por risco e exige conformidade progressiva. Em vigor desde Agosto 2024.
Classificação de Risco
| Nível | Exemplo GenAI | Requisitos |
|---|---|---|
InaceitávelPROIBIDO | Social scoring, manipulação | Proibido |
Alto RiscoALTO | RH, crédito, saúde | Registro, auditoria |
TransparênciaMÉDIO | Chatbots, deepfakes | Disclosure obrigatório |
MínimoBAIXO | Recomendações, busca | Boas práticas |
Dados & Privacidade
Transparência & Audit
Segurança & Controle
Arquitetura assíncrona para sistemas GenAI em produção com alta disponibilidade.
| Componente | % do Custo | Otimização |
|---|---|---|
LLM Inference | 40-60% | Caching, routing, prompts menores |
Embeddings | 15-25% | Batch, cache, modelos menores |
Vector DB | 10-20% | Compressão, tiering |
Compute/GPU | 10-15% | Spot instances, auto-scaling |
Cache baseado em similaridade semântica, não apenas match exato. Queries similares retornam respostas cacheadas.
Ferramentas
Roteia queries para o modelo mais custo-eficienteque consegue resolvê-las com qualidade adequada.
Data Lineage rastreia a origem, transformação e uso de cada dado no sistema. Em GenAI, isso significa saber exatamente de onde veio cada chunk, como foi processado e onde foi usado.
Integração com Observability
| Tier | RTO | RPO |
|---|---|---|
Tier 1 - Critical | <15 min | ~0 (sync) |
Tier 2 - High | <1 hora | <15 min |
Tier 3 - Medium | <4 horas | <1 hora |
O que fazer backup
Estratégias por Componente
LLM Provider Down
Vector DB Down
Full Disaster
| Aspecto | RAG | Fine-tuning |
|---|---|---|
Custo Inicial | BaixoWIN | Alto |
Atualização | Tempo realWIN | Re-treino |
Privacidade | AltaWIN | Dados no modelo |
Auditabilidade | CitaçõesWIN | Black box |
Estilo/Tom | Limitado | PersonalizadoWIN |
Raciocínio | Context-dependent | InternalizadoWIN |
| Cenário | Arquitetura Recomendada |
|---|---|
FAQ / Suporte básico | RAG simples + Guardrails |
Análise de documentos | RAG + Multi-Modal |
Automação de tarefas | Agents + HITL |
Copilot interno | RAG + Agents + Memory |
Aplicação crítica | Full stack + DR + Compliance |
Core
Segurança
Observabilidade
Resiliência