ML AI EngineerEngenheiro de ML e IAML/AI Engineer
Model training and evals.Treino e avaliação de modelos.Entrenamiento y evaluación de modelos.
The ML AI Engineer is the persona that brings models and LLM-powered features from prototype to production. In an AI-native SDLC, the ML AI Engineer operates an Eval Runner agent, four slash prompts, and a validated MCP catalog centered on Azure AI Foundry, Azure OpenAI, and Azure Machine Learning — not a pile of ad-hoc notebooks.
Executive summary
The ML AI Engineer is responsible for the reliability of AI behavior: model quality, prompt stability, routing decisions, and deployment topology. In an AI-native SDLC, the role is operationalized through a single Eval Runner agent, four slash prompts, scoped instructions, and validated MCPs reaching into Azure AI Foundry, Azure OpenAI, Azure Machine Learning, and Microsoft Learn Docs MCP.
Primary deliverables are versioned evaluation suites, model-routing configurations with traceable decisions, prompt regression dashboards, and Foundry deployment artifacts with rollback plans. The ML AI Engineer closes the loop from model change to production telemetry: no model ships without an eval baseline, and no regression survives overnight.
AI behavior is software behavior. Evals are tests, prompts are code, routing is configuration, and deployments are PRs. The ML AI Engineer makes the AI layer obey the same governance as every other system in production.
Role and responsibilities
Think of the ML AI Engineer like a pharmaceutical process engineer. The chemist invents the compound; the process engineer ensures every batch meets the monograph, with tests at each stage. In an AI-native SDLC, the ML AI Engineer turns exploratory model work into repeatable, auditable production behavior.
Primary responsibilities:
- Maintain the evaluation suite: datasets, metrics, regressions per feature
- Operate model routing (which model, which version, which tenant) in Azure AI Foundry
- Track prompt changes with regression tests and diff reports
- Deploy models and agents to Azure AI Foundry with rollback-ready artifacts
- Train and fine-tune models in Azure Machine Learning with versioned experiments
- Integrate safety systems (content filters, Purview sensitivity) into the model pipeline
- Operate the Eval Runner agent and
/eval-suite,/model-route,/prompt-regression,/foundry-deployprompts - Collaborate with the Data Engineer on feature datasets and with the InfoSec Officer on threat models for AI
Jobs to be done
- As an ML AI Engineer, I want every prompt change gated by a regression test, so that quality does not silently degrade.
- As an ML AI Engineer, I want eval suites versioned with the model, so that I can reproduce any past baseline on demand.
- As an ML AI Engineer, I want safe production deploys via Azure AI Foundry with one-click rollback, so that incidents do not leave users stranded.
- As an ML AI Engineer, I want model routing to be code, not tribal knowledge, so that every routing decision is reviewable.
- As an ML AI Engineer, I want safety filters integrated and tested, so that content-safety violations are caught in CI.
- As an ML AI Engineer, I want training experiments logged in Azure Machine Learning, so that reproducibility is automatic.
- As an ML AI Engineer, I want Application Insights signals from deployed models to feed the next eval, so that the loop closes itself.
- As an ML AI Engineer, I want cost and latency budgets enforced per model and per tenant, so that runaway inference is impossible.
Pain points before AI-native
- Eval-free prompt changes. Prompts changed in a hurry regress quality; no one notices until a user complains.
- Model roulette. Which model served a given request? No one can tell; support cases take hours to reproduce.
- Deploy and pray. Models deployed by hand to Azure AI Foundry or OpenAI endpoints without a rollback plan.
- Cost explosions. A badly designed chain calls GPT-class models a hundred times per request; the bill arrives at month end.
- Safety as afterthought. Content filters and PII redaction added only after an incident.
- Training lineage lost. The best model’s training artifacts exist only on a laptop.
- Prompt-in-code. Prompts embedded in application code instead of version-controlled files with reviews.
AI-native daily workflow
The ML AI Engineer works from Visual Studio Code with GitHub Copilot and from the terminal with Claude Code, driving the Eval Runner across the day.
Morning setup
- Open Azure AI Foundry and Application Insights dashboards; review overnight inference metrics and safety-filter events.
- In VS Code, run
/eval-suite --since=yesterdayto see any eval regressions on merged prompts or models. - Triage PRs that change prompts or routing; the Eval Runner has pre-posted
/prompt-regressiondiffs. - Confirm Azure Machine Learning experiment queue from the training track.
- Sync with the Data Engineer on new or changed feature datasets feeding training.
Midday execution
- For each feature change, run
/eval-suiteagainst the proposed model or prompt; fail the PR if the score drops below threshold. - For routing changes, invoke
/model-routeto generate or update the routing configuration with decision rationale. - Implement training runs through
/foundry-deploy --stage=experiment; results are logged in Azure Machine Learning. - Keep prompts in
prompts/*.prompt.mdwith scoped instructions; no prompts inline in application code.
Afternoon review
- Deploy approved models via
/foundry-deploy --stage=prod. Azure AI Foundry receives a versioned deployment with rollback metadata. - Watch the next hour of Application Insights telemetry for anomalies; roll back automatically if guardrails trip.
- Review cost telemetry per tenant; open issues for outliers.
Recommended primitives
Agent
| Agent | File | Purpose |
|---|---|---|
eval-runner | .github/agents/eval-runner.agent.md | Runs eval suites, prompt regressions, routing updates, Foundry deploys |
Slash prompts
| Command | File | Purpose |
|---|---|---|
/eval-suite | .github/prompts/eval-suite.prompt.md | Run the evaluation suite and publish scored reports |
/model-route | .github/prompts/model-route.prompt.md | Update and validate the model-routing configuration |
/prompt-regression | .github/prompts/prompt-regression.prompt.md | Run regression tests against changed prompts |
/foundry-deploy | .github/prompts/foundry-deploy.prompt.md | Stage or promote a model or agent in Azure AI Foundry with rollback metadata |
Instructions scoped
Scope (applyTo) | File | Purpose |
|---|---|---|
prompts/**/*.prompt.md | .github/instructions/prompts.instructions.md | Prompt structure, version header, safety block, eval reference |
evals/**/*.yaml | .github/instructions/evals.instructions.md | Eval dataset structure, metric definitions, thresholds |
foundry/**/*.bicep | .github/instructions/foundry.instructions.md | Azure AI Foundry deployment templates, identity, rollback |
aml/**/*.py | .github/instructions/aml.instructions.md | Azure Machine Learning experiment scaffolding |
Hooks
pre-commit: lint prompts, check required metadata headers, redact secretspre-push: run eval subset on changed prompts and modelspost-merge: run full eval suite and publish the dashboardpre-deploy: enforce rollback metadata and Foundry policy gatespost-deploy: watch Application Insights for 60 minutes; auto-rollback on anomaly
Validated MCPs
| MCP | Purpose | Owner |
|---|---|---|
| GitHub MCP Server | PRs, Actions runs, eval report comments | GitHub |
| Azure MCP Server | Operate Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights | Microsoft |
| Microsoft Learn Docs MCP | Look up current guidance on Foundry, OpenAI, and AML patterns | Microsoft |
| Azure DevOps MCP Server | Track ML experiments as work items when the team uses Azure DevOps | Microsoft |
| Playwright MCP | End-to-end evaluation of AI features embedded in web UIs | Microsoft |
Real examples
Example 1: gating a prompt change
A Product Owner requests a friendlier tone in a support assistant. A PR edits prompts/support-assistant.prompt.md. The pre-push hook runs /prompt-regression; the Eval Runner scores the change against the versioned eval suite. Two helpfulness metrics rise, but a groundedness metric drops below threshold. The PR is blocked; the ML AI Engineer adds a constraint to the prompt; the next run passes and the PR merges.
Example 2: safe model upgrade
A new version of GPT-class model becomes available in Azure OpenAI. The ML AI Engineer opens a PR modifying the routing config via /model-route. /eval-suite runs against a held-out dataset; cost and latency budgets are respected; safety-filter activations stay inside tolerance. /foundry-deploy --stage=prod deploys; post-deploy monitoring for 60 minutes confirms no regression. The old version stays hot for 24 hours for rollback.
Example 3: closing the telemetry loop
Application Insights shows a spike in hallucinated entity mentions for a specific tenant. The ML AI Engineer invokes /eval-suite --from=prod-telemetry --tenant=acme; the Eval Runner builds a new eval slice from recent cases, runs it against two candidate prompts, and recommends the winner. A PR lands the change with the new eval slice added to the regression suite permanently.
Anti-patterns
- Prompts in application code. Inline prompts cannot be reviewed as changes; keep them in
prompts/*. - Evals optional. Every production-facing prompt or model has at least one eval dataset with thresholds.
- Hand-built routing. Routing as a series of if-statements in code is unreviewable; keep it in a declarative config.
- Deploys without rollback. Every Foundry deployment ships with metadata enabling one-click rollback.
- Training on a laptop. Use Azure Machine Learning; experiments must be reproducible from the job definition.
- Safety filters bolted on. Content safety is part of the pipeline from the start, not an incident response.
- Evals that never change. Eval datasets rot; add real production cases regularly via telemetry loops.
KPIs and impact metrics
| Metric | Baseline (manual) | Target (agentic) | Source |
|---|---|---|---|
| Prompt regressions shipped to prod | 4 per quarter | 0 | Eval Runner history |
| Eval coverage on production prompts | 30 percent | 100 percent | Repo scan |
| Time from model release to evaluated prod deploy | 2 weeks | < 2 days | GitHub + Azure AI Foundry |
| Safety-filter violations per 1M requests | Unmeasured | < 10 | Application Insights |
| Cost per 1K requests (p50) | Drift | Within 10 percent of budget | Azure cost data |
| Rollback time after deploy anomaly | Hours | < 5 minutes | Azure AI Foundry |
| Experiments reproducible from Git | 40 percent | 100 percent | Azure Machine Learning jobs |
Maturity in four levels
- L1 Manual: Prompts in code, evals in notebooks, deploys by console clicks, no routing config.
- L2 Assisted: Copilot drafts prompts and training code, evals in a notebook, single-model setup.
- L3 Augmented: Eval Runner agent, four slash prompts, scoped instructions, Foundry deploys from GitHub Actions.
- L4 Autonomous: Prompt and routing changes gated by evals, telemetry feeding the next eval automatically, rollback on anomaly within five minutes.
Integration with other personas
- From Data Engineer: curated feature datasets in Microsoft Fabric with documented lineage.
- From Software Architect: AI topology decisions (which tier calls which model) and latency budgets.
- To Developer: prompt files and routing config consumed from the repo; no inline prompts.
- With InfoSec Officer: AI threat model, content-safety configuration, PII redaction policies.
- With SRE: production monitoring, rollback automation, cost telemetry.
- To Product Owner: eval dashboards and regression reports during release review.
- With Compliance Auditor: model cards, training provenance, safety filter evidence.
Glossary
- Eval suite: a versioned set of datasets, metrics, and thresholds used to score a model or prompt.
- Prompt regression: a comparison of eval scores before and after a prompt change.
- Routing: the declarative mapping from request context to model, version, and parameters.
- Foundry deployment: a versioned release of a model or agent in Azure AI Foundry with rollback metadata.
- Groundedness: a metric describing how faithfully a model’s answer reflects its retrieved context.
- Safety filter: an Azure content-safety component that blocks or flags disallowed outputs.
- Telemetry loop: the process of turning production signals into new eval cases.
References
- Azure AI Foundry documentation — agents, models, evaluations
- Azure OpenAI Service — OpenAI models via Azure
- Azure Machine Learning — training and experiment tracking
- Azure AI Content Safety — safety filtering
- Application Insights for LLM apps — production telemetry
- GitHub Copilot and agents — developer workflow integration
- Microsoft Purview for AI data governance — sensitivity classification of training data
- GitHub Actions — CI and deployment orchestration across the stack
- Microsoft Learn Docs MCP — first-party documentation retrieval at implementation time
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection
O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.
Resumo executivo
O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.
As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.
Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.
Papel e responsabilidades
Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.
Responsabilidades primárias:
- Manter a suíte de avaliação: datasets, métricas, regressões por feature
- Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
- Rastrear mudanças de prompt com testes de regressão e relatórios de diff
- Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
- Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
- Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
- Operar o agente Eval Runner e os prompts
/eval-suite,/model-route,/prompt-regression,/foundry-deploy - Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA
Jobs to be done
- Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
- Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
- Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
- Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
- Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
- Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
- Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
- Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.
Dores antes do AI-nativo
- Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
- Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
- Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
- Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
- Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
- Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
- Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.
Fluxo diário AI-nativo
O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.
Setup da manhã
- Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
- No VS Code, rode
/eval-suite --since=yesterdaypara ver quaisquer regressões de avaliação em prompts ou modelos merged. - Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de
/prompt-regression. - Confirme a fila de experimentos do Azure Machine Learning do track de treino.
- Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.
Execução no meio do dia
- Para cada mudança de feature, rode
/eval-suitecontra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar. - Para mudanças de roteamento, invoque
/model-routepara gerar ou atualizar a configuração de roteamento com justificativa de decisão. - Implemente execuções de treino através de
/foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning. - Mantenha prompts em
prompts/*.prompt.mdcom instruções com escopo; nenhum prompt inline no código da aplicação.
Revisão no fim da tarde
- Deploye modelos aprovados via
/foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback. - Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
- Revise telemetria de custo por tenant; abra issues para outliers.
Primitivas recomendadas
Agente
| Agente | Arquivo | Propósito |
|---|---|---|
eval-runner | .github/agents/eval-runner.agent.md | Roda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry |
Slash prompts
| Comando | Arquivo | Propósito |
|---|---|---|
/eval-suite | .github/prompts/eval-suite.prompt.md | Rodar a suíte de avaliação e publicar relatórios com scores |
/model-route | .github/prompts/model-route.prompt.md | Atualizar e validar a configuração de roteamento de modelos |
/prompt-regression | .github/prompts/prompt-regression.prompt.md | Rodar testes de regressão contra prompts alterados |
/foundry-deploy | .github/prompts/foundry-deploy.prompt.md | Promover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback |
Instruções com escopo
Escopo (applyTo) | Arquivo | Propósito |
|---|---|---|
prompts/**/*.prompt.md | .github/instructions/prompts.instructions.md | Estrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação |
evals/**/*.yaml | .github/instructions/evals.instructions.md | Estrutura de dataset de avaliação, definições de métricas, limiares |
foundry/**/*.bicep | .github/instructions/foundry.instructions.md | Templates de deploy do Azure AI Foundry, identidade, rollback |
aml/**/*.py | .github/instructions/aml.instructions.md | Scaffolding de experimentos do Azure Machine Learning |
Hooks
pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredospre-push: rodar subconjunto de avaliação em prompts e modelos alteradospost-merge: rodar suíte de avaliação completa e publicar o dashboardpre-deploy: enforçar metadados de rollback e gates de política do Foundrypost-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia
MCPs validados
| MCP | Propósito | Dono |
|---|---|---|
| GitHub MCP Server | PRs, execuções do Actions, comentários de relatório de avaliação | GitHub |
| Azure MCP Server | Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights | Microsoft |
| Microsoft Learn Docs MCP | Consultar orientação atualizada sobre padrões de Foundry, OpenAI e AML | Microsoft |
| Azure DevOps MCP Server | Rastrear experimentos de ML como work items quando o time usa Azure DevOps | Microsoft |
| Playwright MCP | Avaliação ponta a ponta de features de IA embutidas em UIs web | Microsoft |
Exemplos reais
Exemplo 1: bloqueando uma mudança de prompt
Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.
Exemplo 2: upgrade seguro de modelo
Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.
Exemplo 3: fechando o loop de telemetria
Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.
Anti-padrões
- Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em
prompts/*. - Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
- Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
- Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
- Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
- Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
- Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.
KPIs e métricas de impacto
| Métrica | Linha base (manual) | Meta (agêntico) | Fonte |
|---|---|---|---|
| Regressões de prompt entregues em produção | 4 por trimestre | 0 | Histórico do Eval Runner |
| Cobertura de avaliação em prompts de produção | 30 por cento | 100 por cento | Scan do repo |
| Tempo do release de modelo ao deploy avaliado em produção | 2 semanas | < 2 dias | GitHub + Azure AI Foundry |
| Violações de filtro de segurança por 1M de requests | Não medido | < 10 | Application Insights |
| Custo por 1K requests (p50) | Deriva | Dentro de 10 por cento do orçamento | Dados de custo Azure |
| Tempo de rollback após anomalia de deploy | Horas | < 5 minutos | Azure AI Foundry |
| Experimentos reproduzíveis a partir do Git | 40 por cento | 100 por cento | Jobs do Azure Machine Learning |
Maturidade em quatro níveis
- L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
- L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
- L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
- L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.
Integração com outras personas
- Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
- Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
- Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
- Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
- Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
- Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
- Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.
Glossário
- Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
- Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
- Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
- Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
- Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
- Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
- Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.
Referências
- Documentação do Azure AI Foundry — agentes, modelos, avaliações
- Azure OpenAI Service — modelos OpenAI via Azure
- Azure Machine Learning — treino e rastreamento de experimentos
- Azure AI Content Safety — filtragem de segurança
- Application Insights para apps de LLM — telemetria de produção
- GitHub Copilot e agentes — integração no workflow do desenvolvedor
- Microsoft Purview para governança de dados de IA — classificação de sensibilidade de dados de treino
- GitHub Actions — orquestração de CI e deploy em todo o stack
- Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection
El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.
Resumen ejecutivo
El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.
Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.
El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.
Rol y responsabilidades
Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.
Responsabilidades principales:
- Mantener la suite de evaluación: datasets, métricas, regresiones por feature
- Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
- Rastrear cambios de prompts con pruebas de regresión e informes de diff
- Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
- Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
- Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
- Operar el agente Eval Runner y los prompts
/eval-suite,/model-route,/prompt-regression,/foundry-deploy - Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA
Jobs to be done
- Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
- Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
- Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
- Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
- Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
- Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
- Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
- Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.
Puntos de dolor antes de la era AI-nativa
- Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
- Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
- Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
- Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
- Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
- Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
- Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.
Flujo diario AI-nativo
El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.
Setup de la mañana
- Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
- En VS Code, ejecuta
/eval-suite --since=yesterdaypara ver cualquier regresión de eval en prompts o modelos mergeados. - Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de
/prompt-regression. - Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
- Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.
Ejecución al mediodía
- Para cada cambio de feature, ejecuta
/eval-suitecontra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral. - Para cambios de routing, invoca
/model-routepara generar o actualizar la configuración de routing con la razón de la decisión. - Implementa ejecuciones de entrenamiento a través de
/foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning. - Mantén prompts en
prompts/*.prompt.mdcon instrucciones con alcance; sin prompts inline en código de aplicación.
Revisión al final de la tarde
- Despliega modelos aprobados vía
/foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback. - Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
- Revisa telemetría de costo por tenant; abre issues para outliers.
Primitivas recomendadas
Agente
| Agente | Archivo | Propósito |
|---|---|---|
eval-runner | .github/agents/eval-runner.agent.md | Ejecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry |
Slash prompts
| Comando | Archivo | Propósito |
|---|---|---|
/eval-suite | .github/prompts/eval-suite.prompt.md | Ejecuta la suite de evaluación y publica informes puntuados |
/model-route | .github/prompts/model-route.prompt.md | Actualiza y valida la configuración de routing de modelos |
/prompt-regression | .github/prompts/prompt-regression.prompt.md | Ejecuta pruebas de regresión contra prompts cambiados |
/foundry-deploy | .github/prompts/foundry-deploy.prompt.md | Prepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback |
Instrucciones con alcance
Alcance (applyTo) | Archivo | Propósito |
|---|---|---|
prompts/**/*.prompt.md | .github/instructions/prompts.instructions.md | Estructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval |
evals/**/*.yaml | .github/instructions/evals.instructions.md | Estructura de dataset de eval, definiciones de métricas, umbrales |
foundry/**/*.bicep | .github/instructions/foundry.instructions.md | Plantillas de despliegue de Azure AI Foundry, identidad, rollback |
aml/**/*.py | .github/instructions/aml.instructions.md | Scaffolding de experimentos de Azure Machine Learning |
Hooks
pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretospre-push: ejecuta subset de eval en prompts y modelos cambiadospost-merge: ejecuta suite de eval completa y publica el dashboardpre-deploy: ejecuta metadatos de rollback y gates de política de Foundrypost-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía
MCPs validados
| MCP | Propósito | Dueño |
|---|---|---|
| GitHub MCP Server | PRs, ejecuciones de Actions, comentarios en informes de eval | GitHub |
| Azure MCP Server | Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights | Microsoft |
| Microsoft Learn Docs MCP | Busca orientación actual sobre patrones de Foundry, OpenAI y AML | Microsoft |
| Azure DevOps MCP Server | Rastrea experimentos de ML como work items cuando el equipo usa Azure DevOps | Microsoft |
| Playwright MCP | Evaluación end-to-end de features de IA incrustadas en UIs web | Microsoft |
Ejemplos reales
Escenario A: validar un cambio de prompt
Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.
Escenario B: actualización segura de modelo
Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.
Escenario C: cerrando el loop de telemetría
Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.
Anti-patrones
- Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en
prompts/*. - Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
- Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
- Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
- Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
- Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
- Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.
KPIs y métricas de impacto
| Métrica | Baseline (manual) | Objetivo (agéntico) | Fuente |
|---|---|---|---|
| Regresiones de prompt enviadas a prod | 4 por trimestre | 0 | Historial de Eval Runner |
| Cobertura de eval en prompts de producción | 30 por ciento | 100 por ciento | Escaneo de repo |
| Tiempo desde lanzamiento de modelo a despliegue de prod evaluado | 2 semanas | < 2 días | GitHub + Azure AI Foundry |
| Violaciones de safety-filter por 1M solicitudes | Sin medir | < 10 | Application Insights |
| Costo por 1K solicitudes (p50) | Drift | Dentro del 10 por ciento del presupuesto | Datos de costo de Azure |
| Tiempo de rollback después de anomalía de despliegue | Horas | < 5 minutos | Azure AI Foundry |
| Experimentos reproducibles desde Git | 40 por ciento | 100 por ciento | Jobs de Azure Machine Learning |
Madurez en cuatro niveles
- L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
- L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
- L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
- L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.
Integración con otras personas
- Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
- Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
- Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
- Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
- Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
- Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
- Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.
Glosario
- Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
- Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
- Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
- Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
- Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
- Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
- Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.
Referencias
- Documentación de Azure AI Foundry — agentes, modelos, evaluaciones
- Azure OpenAI Service — modelos de OpenAI vía Azure
- Azure Machine Learning — entrenamiento y rastreo de experimentos
- Azure AI Content Safety — filtrado de seguridad
- Application Insights para apps de LLM — telemetría de producción
- GitHub Copilot y agentes — integración de flujo de trabajo de desarrollador
- Microsoft Purview para gobernanza de datos de IA — clasificación de sensibilidad de datos de entrenamiento
- GitHub Actions — orquestación de CI y despliegue en toda la pila
- Microsoft Learn Docs MCP — recuperación de documentación de primer nivel en tiempo de implementación
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection