Paula Silva Software Global Black Belt
LinkedIn
16 data · Implementation

ML AI EngineerEngenheiro de ML e IAML/AI Engineer

Model training and evals.Treino e avaliação de modelos.Entrenamiento y evaluación de modelos.


The ML AI Engineer is the persona that brings models and LLM-powered features from prototype to production. In an AI-native SDLC, the ML AI Engineer operates an Eval Runner agent, four slash prompts, and a validated MCP catalog centered on Azure AI Foundry, Azure OpenAI, and Azure Machine Learning — not a pile of ad-hoc notebooks.

Executive summary

The ML AI Engineer is responsible for the reliability of AI behavior: model quality, prompt stability, routing decisions, and deployment topology. In an AI-native SDLC, the role is operationalized through a single Eval Runner agent, four slash prompts, scoped instructions, and validated MCPs reaching into Azure AI Foundry, Azure OpenAI, Azure Machine Learning, and Microsoft Learn Docs MCP.

Primary deliverables are versioned evaluation suites, model-routing configurations with traceable decisions, prompt regression dashboards, and Foundry deployment artifacts with rollback plans. The ML AI Engineer closes the loop from model change to production telemetry: no model ships without an eval baseline, and no regression survives overnight.

AI behavior is software behavior. Evals are tests, prompts are code, routing is configuration, and deployments are PRs. The ML AI Engineer makes the AI layer obey the same governance as every other system in production.

Role and responsibilities

Think of the ML AI Engineer like a pharmaceutical process engineer. The chemist invents the compound; the process engineer ensures every batch meets the monograph, with tests at each stage. In an AI-native SDLC, the ML AI Engineer turns exploratory model work into repeatable, auditable production behavior.

Primary responsibilities:

  • Maintain the evaluation suite: datasets, metrics, regressions per feature
  • Operate model routing (which model, which version, which tenant) in Azure AI Foundry
  • Track prompt changes with regression tests and diff reports
  • Deploy models and agents to Azure AI Foundry with rollback-ready artifacts
  • Train and fine-tune models in Azure Machine Learning with versioned experiments
  • Integrate safety systems (content filters, Purview sensitivity) into the model pipeline
  • Operate the Eval Runner agent and /eval-suite, /model-route, /prompt-regression, /foundry-deploy prompts
  • Collaborate with the Data Engineer on feature datasets and with the InfoSec Officer on threat models for AI

Jobs to be done

  1. As an ML AI Engineer, I want every prompt change gated by a regression test, so that quality does not silently degrade.
  2. As an ML AI Engineer, I want eval suites versioned with the model, so that I can reproduce any past baseline on demand.
  3. As an ML AI Engineer, I want safe production deploys via Azure AI Foundry with one-click rollback, so that incidents do not leave users stranded.
  4. As an ML AI Engineer, I want model routing to be code, not tribal knowledge, so that every routing decision is reviewable.
  5. As an ML AI Engineer, I want safety filters integrated and tested, so that content-safety violations are caught in CI.
  6. As an ML AI Engineer, I want training experiments logged in Azure Machine Learning, so that reproducibility is automatic.
  7. As an ML AI Engineer, I want Application Insights signals from deployed models to feed the next eval, so that the loop closes itself.
  8. As an ML AI Engineer, I want cost and latency budgets enforced per model and per tenant, so that runaway inference is impossible.

Pain points before AI-native

  • Eval-free prompt changes. Prompts changed in a hurry regress quality; no one notices until a user complains.
  • Model roulette. Which model served a given request? No one can tell; support cases take hours to reproduce.
  • Deploy and pray. Models deployed by hand to Azure AI Foundry or OpenAI endpoints without a rollback plan.
  • Cost explosions. A badly designed chain calls GPT-class models a hundred times per request; the bill arrives at month end.
  • Safety as afterthought. Content filters and PII redaction added only after an incident.
  • Training lineage lost. The best model’s training artifacts exist only on a laptop.
  • Prompt-in-code. Prompts embedded in application code instead of version-controlled files with reviews.

AI-native daily workflow

The ML AI Engineer works from Visual Studio Code with GitHub Copilot and from the terminal with Claude Code, driving the Eval Runner across the day.

Morning setup

  1. Open Azure AI Foundry and Application Insights dashboards; review overnight inference metrics and safety-filter events.
  2. In VS Code, run /eval-suite --since=yesterday to see any eval regressions on merged prompts or models.
  3. Triage PRs that change prompts or routing; the Eval Runner has pre-posted /prompt-regression diffs.
  4. Confirm Azure Machine Learning experiment queue from the training track.
  5. Sync with the Data Engineer on new or changed feature datasets feeding training.

Midday execution

  1. For each feature change, run /eval-suite against the proposed model or prompt; fail the PR if the score drops below threshold.
  2. For routing changes, invoke /model-route to generate or update the routing configuration with decision rationale.
  3. Implement training runs through /foundry-deploy --stage=experiment; results are logged in Azure Machine Learning.
  4. Keep prompts in prompts/*.prompt.md with scoped instructions; no prompts inline in application code.

Afternoon review

  1. Deploy approved models via /foundry-deploy --stage=prod. Azure AI Foundry receives a versioned deployment with rollback metadata.
  2. Watch the next hour of Application Insights telemetry for anomalies; roll back automatically if guardrails trip.
  3. Review cost telemetry per tenant; open issues for outliers.

Agent

AgentFilePurpose
eval-runner.github/agents/eval-runner.agent.mdRuns eval suites, prompt regressions, routing updates, Foundry deploys

Slash prompts

CommandFilePurpose
/eval-suite.github/prompts/eval-suite.prompt.mdRun the evaluation suite and publish scored reports
/model-route.github/prompts/model-route.prompt.mdUpdate and validate the model-routing configuration
/prompt-regression.github/prompts/prompt-regression.prompt.mdRun regression tests against changed prompts
/foundry-deploy.github/prompts/foundry-deploy.prompt.mdStage or promote a model or agent in Azure AI Foundry with rollback metadata

Instructions scoped

Scope (applyTo)FilePurpose
prompts/**/*.prompt.md.github/instructions/prompts.instructions.mdPrompt structure, version header, safety block, eval reference
evals/**/*.yaml.github/instructions/evals.instructions.mdEval dataset structure, metric definitions, thresholds
foundry/**/*.bicep.github/instructions/foundry.instructions.mdAzure AI Foundry deployment templates, identity, rollback
aml/**/*.py.github/instructions/aml.instructions.mdAzure Machine Learning experiment scaffolding

Hooks

  • pre-commit: lint prompts, check required metadata headers, redact secrets
  • pre-push: run eval subset on changed prompts and models
  • post-merge: run full eval suite and publish the dashboard
  • pre-deploy: enforce rollback metadata and Foundry policy gates
  • post-deploy: watch Application Insights for 60 minutes; auto-rollback on anomaly

Validated MCPs

MCPPurposeOwner
GitHub MCP ServerPRs, Actions runs, eval report commentsGitHub
Azure MCP ServerOperate Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application InsightsMicrosoft
Microsoft Learn Docs MCPLook up current guidance on Foundry, OpenAI, and AML patternsMicrosoft
Azure DevOps MCP ServerTrack ML experiments as work items when the team uses Azure DevOpsMicrosoft
Playwright MCPEnd-to-end evaluation of AI features embedded in web UIsMicrosoft

Real examples

Example 1: gating a prompt change

A Product Owner requests a friendlier tone in a support assistant. A PR edits prompts/support-assistant.prompt.md. The pre-push hook runs /prompt-regression; the Eval Runner scores the change against the versioned eval suite. Two helpfulness metrics rise, but a groundedness metric drops below threshold. The PR is blocked; the ML AI Engineer adds a constraint to the prompt; the next run passes and the PR merges.

Example 2: safe model upgrade

A new version of GPT-class model becomes available in Azure OpenAI. The ML AI Engineer opens a PR modifying the routing config via /model-route. /eval-suite runs against a held-out dataset; cost and latency budgets are respected; safety-filter activations stay inside tolerance. /foundry-deploy --stage=prod deploys; post-deploy monitoring for 60 minutes confirms no regression. The old version stays hot for 24 hours for rollback.

Example 3: closing the telemetry loop

Application Insights shows a spike in hallucinated entity mentions for a specific tenant. The ML AI Engineer invokes /eval-suite --from=prod-telemetry --tenant=acme; the Eval Runner builds a new eval slice from recent cases, runs it against two candidate prompts, and recommends the winner. A PR lands the change with the new eval slice added to the regression suite permanently.

Anti-patterns

  • Prompts in application code. Inline prompts cannot be reviewed as changes; keep them in prompts/*.
  • Evals optional. Every production-facing prompt or model has at least one eval dataset with thresholds.
  • Hand-built routing. Routing as a series of if-statements in code is unreviewable; keep it in a declarative config.
  • Deploys without rollback. Every Foundry deployment ships with metadata enabling one-click rollback.
  • Training on a laptop. Use Azure Machine Learning; experiments must be reproducible from the job definition.
  • Safety filters bolted on. Content safety is part of the pipeline from the start, not an incident response.
  • Evals that never change. Eval datasets rot; add real production cases regularly via telemetry loops.

KPIs and impact metrics

MetricBaseline (manual)Target (agentic)Source
Prompt regressions shipped to prod4 per quarter0Eval Runner history
Eval coverage on production prompts30 percent100 percentRepo scan
Time from model release to evaluated prod deploy2 weeks< 2 daysGitHub + Azure AI Foundry
Safety-filter violations per 1M requestsUnmeasured< 10Application Insights
Cost per 1K requests (p50)DriftWithin 10 percent of budgetAzure cost data
Rollback time after deploy anomalyHours< 5 minutesAzure AI Foundry
Experiments reproducible from Git40 percent100 percentAzure Machine Learning jobs

Maturity in four levels

  • L1 Manual: Prompts in code, evals in notebooks, deploys by console clicks, no routing config.
  • L2 Assisted: Copilot drafts prompts and training code, evals in a notebook, single-model setup.
  • L3 Augmented: Eval Runner agent, four slash prompts, scoped instructions, Foundry deploys from GitHub Actions.
  • L4 Autonomous: Prompt and routing changes gated by evals, telemetry feeding the next eval automatically, rollback on anomaly within five minutes.

Integration with other personas

  • From Data Engineer: curated feature datasets in Microsoft Fabric with documented lineage.
  • From Software Architect: AI topology decisions (which tier calls which model) and latency budgets.
  • To Developer: prompt files and routing config consumed from the repo; no inline prompts.
  • With InfoSec Officer: AI threat model, content-safety configuration, PII redaction policies.
  • With SRE: production monitoring, rollback automation, cost telemetry.
  • To Product Owner: eval dashboards and regression reports during release review.
  • With Compliance Auditor: model cards, training provenance, safety filter evidence.

Glossary

  • Eval suite: a versioned set of datasets, metrics, and thresholds used to score a model or prompt.
  • Prompt regression: a comparison of eval scores before and after a prompt change.
  • Routing: the declarative mapping from request context to model, version, and parameters.
  • Foundry deployment: a versioned release of a model or agent in Azure AI Foundry with rollback metadata.
  • Groundedness: a metric describing how faithfully a model’s answer reflects its retrieved context.
  • Safety filter: an Azure content-safety component that blocks or flags disallowed outputs.
  • Telemetry loop: the process of turning production signals into new eval cases.

References

O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.

Resumo executivo

O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.

As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.

Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.

Papel e responsabilidades

Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.

Responsabilidades primárias:

  • Manter a suíte de avaliação: datasets, métricas, regressões por feature
  • Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
  • Rastrear mudanças de prompt com testes de regressão e relatórios de diff
  • Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
  • Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
  • Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
  • Operar o agente Eval Runner e os prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
  • Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA

Jobs to be done

  1. Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
  2. Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
  3. Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
  4. Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
  5. Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
  6. Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
  7. Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
  8. Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.

Dores antes do AI-nativo

  • Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
  • Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
  • Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
  • Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
  • Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
  • Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
  • Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.

Fluxo diário AI-nativo

O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.

Setup da manhã

  1. Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
  2. No VS Code, rode /eval-suite --since=yesterday para ver quaisquer regressões de avaliação em prompts ou modelos merged.
  3. Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de /prompt-regression.
  4. Confirme a fila de experimentos do Azure Machine Learning do track de treino.
  5. Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.

Execução no meio do dia

  1. Para cada mudança de feature, rode /eval-suite contra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar.
  2. Para mudanças de roteamento, invoque /model-route para gerar ou atualizar a configuração de roteamento com justificativa de decisão.
  3. Implemente execuções de treino através de /foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning.
  4. Mantenha prompts em prompts/*.prompt.md com instruções com escopo; nenhum prompt inline no código da aplicação.

Revisão no fim da tarde

  1. Deploye modelos aprovados via /foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback.
  2. Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
  3. Revise telemetria de custo por tenant; abra issues para outliers.

Primitivas recomendadas

Agente

AgenteArquivoPropósito
eval-runner.github/agents/eval-runner.agent.mdRoda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry

Slash prompts

ComandoArquivoPropósito
/eval-suite.github/prompts/eval-suite.prompt.mdRodar a suíte de avaliação e publicar relatórios com scores
/model-route.github/prompts/model-route.prompt.mdAtualizar e validar a configuração de roteamento de modelos
/prompt-regression.github/prompts/prompt-regression.prompt.mdRodar testes de regressão contra prompts alterados
/foundry-deploy.github/prompts/foundry-deploy.prompt.mdPromover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback

Instruções com escopo

Escopo (applyTo)ArquivoPropósito
prompts/**/*.prompt.md.github/instructions/prompts.instructions.mdEstrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação
evals/**/*.yaml.github/instructions/evals.instructions.mdEstrutura de dataset de avaliação, definições de métricas, limiares
foundry/**/*.bicep.github/instructions/foundry.instructions.mdTemplates de deploy do Azure AI Foundry, identidade, rollback
aml/**/*.py.github/instructions/aml.instructions.mdScaffolding de experimentos do Azure Machine Learning

Hooks

  • pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredos
  • pre-push: rodar subconjunto de avaliação em prompts e modelos alterados
  • post-merge: rodar suíte de avaliação completa e publicar o dashboard
  • pre-deploy: enforçar metadados de rollback e gates de política do Foundry
  • post-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia

MCPs validados

MCPPropósitoDono
GitHub MCP ServerPRs, execuções do Actions, comentários de relatório de avaliaçãoGitHub
Azure MCP ServerOperar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application InsightsMicrosoft
Microsoft Learn Docs MCPConsultar orientação atualizada sobre padrões de Foundry, OpenAI e AMLMicrosoft
Azure DevOps MCP ServerRastrear experimentos de ML como work items quando o time usa Azure DevOpsMicrosoft
Playwright MCPAvaliação ponta a ponta de features de IA embutidas em UIs webMicrosoft

Exemplos reais

Exemplo 1: bloqueando uma mudança de prompt

Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.

Exemplo 2: upgrade seguro de modelo

Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.

Exemplo 3: fechando o loop de telemetria

Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.

Anti-padrões

  • Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em prompts/*.
  • Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
  • Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
  • Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
  • Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
  • Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
  • Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.

KPIs e métricas de impacto

MétricaLinha base (manual)Meta (agêntico)Fonte
Regressões de prompt entregues em produção4 por trimestre0Histórico do Eval Runner
Cobertura de avaliação em prompts de produção30 por cento100 por centoScan do repo
Tempo do release de modelo ao deploy avaliado em produção2 semanas< 2 diasGitHub + Azure AI Foundry
Violações de filtro de segurança por 1M de requestsNão medido< 10Application Insights
Custo por 1K requests (p50)DerivaDentro de 10 por cento do orçamentoDados de custo Azure
Tempo de rollback após anomalia de deployHoras< 5 minutosAzure AI Foundry
Experimentos reproduzíveis a partir do Git40 por cento100 por centoJobs do Azure Machine Learning

Maturidade em quatro níveis

  • L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
  • L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
  • L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
  • L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.

Integração com outras personas

  • Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
  • Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
  • Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
  • Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
  • Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
  • Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
  • Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.

Glossário

  • Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
  • Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
  • Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
  • Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
  • Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
  • Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
  • Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.

Referências

El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.

Resumen ejecutivo

El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.

Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.

El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.

Rol y responsabilidades

Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.

Responsabilidades principales:

  • Mantener la suite de evaluación: datasets, métricas, regresiones por feature
  • Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
  • Rastrear cambios de prompts con pruebas de regresión e informes de diff
  • Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
  • Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
  • Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
  • Operar el agente Eval Runner y los prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
  • Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA

Jobs to be done

  1. Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
  2. Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
  3. Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
  4. Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
  5. Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
  6. Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
  7. Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
  8. Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.

Puntos de dolor antes de la era AI-nativa

  • Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
  • Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
  • Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
  • Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
  • Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
  • Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
  • Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.

Flujo diario AI-nativo

El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.

Setup de la mañana

  1. Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
  2. En VS Code, ejecuta /eval-suite --since=yesterday para ver cualquier regresión de eval en prompts o modelos mergeados.
  3. Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de /prompt-regression.
  4. Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
  5. Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.

Ejecución al mediodía

  1. Para cada cambio de feature, ejecuta /eval-suite contra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral.
  2. Para cambios de routing, invoca /model-route para generar o actualizar la configuración de routing con la razón de la decisión.
  3. Implementa ejecuciones de entrenamiento a través de /foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning.
  4. Mantén prompts en prompts/*.prompt.md con instrucciones con alcance; sin prompts inline en código de aplicación.

Revisión al final de la tarde

  1. Despliega modelos aprobados vía /foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback.
  2. Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
  3. Revisa telemetría de costo por tenant; abre issues para outliers.

Primitivas recomendadas

Agente

AgenteArchivoPropósito
eval-runner.github/agents/eval-runner.agent.mdEjecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry

Slash prompts

ComandoArchivoPropósito
/eval-suite.github/prompts/eval-suite.prompt.mdEjecuta la suite de evaluación y publica informes puntuados
/model-route.github/prompts/model-route.prompt.mdActualiza y valida la configuración de routing de modelos
/prompt-regression.github/prompts/prompt-regression.prompt.mdEjecuta pruebas de regresión contra prompts cambiados
/foundry-deploy.github/prompts/foundry-deploy.prompt.mdPrepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback

Instrucciones con alcance

Alcance (applyTo)ArchivoPropósito
prompts/**/*.prompt.md.github/instructions/prompts.instructions.mdEstructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval
evals/**/*.yaml.github/instructions/evals.instructions.mdEstructura de dataset de eval, definiciones de métricas, umbrales
foundry/**/*.bicep.github/instructions/foundry.instructions.mdPlantillas de despliegue de Azure AI Foundry, identidad, rollback
aml/**/*.py.github/instructions/aml.instructions.mdScaffolding de experimentos de Azure Machine Learning

Hooks

  • pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretos
  • pre-push: ejecuta subset de eval en prompts y modelos cambiados
  • post-merge: ejecuta suite de eval completa y publica el dashboard
  • pre-deploy: ejecuta metadatos de rollback y gates de política de Foundry
  • post-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía

MCPs validados

MCPPropósitoDueño
GitHub MCP ServerPRs, ejecuciones de Actions, comentarios en informes de evalGitHub
Azure MCP ServerOperar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application InsightsMicrosoft
Microsoft Learn Docs MCPBusca orientación actual sobre patrones de Foundry, OpenAI y AMLMicrosoft
Azure DevOps MCP ServerRastrea experimentos de ML como work items cuando el equipo usa Azure DevOpsMicrosoft
Playwright MCPEvaluación end-to-end de features de IA incrustadas en UIs webMicrosoft

Ejemplos reales

Escenario A: validar un cambio de prompt

Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.

Escenario B: actualización segura de modelo

Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.

Escenario C: cerrando el loop de telemetría

Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.

Anti-patrones

  • Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en prompts/*.
  • Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
  • Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
  • Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
  • Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
  • Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
  • Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.

KPIs y métricas de impacto

MétricaBaseline (manual)Objetivo (agéntico)Fuente
Regresiones de prompt enviadas a prod4 por trimestre0Historial de Eval Runner
Cobertura de eval en prompts de producción30 por ciento100 por cientoEscaneo de repo
Tiempo desde lanzamiento de modelo a despliegue de prod evaluado2 semanas< 2 díasGitHub + Azure AI Foundry
Violaciones de safety-filter por 1M solicitudesSin medir< 10Application Insights
Costo por 1K solicitudes (p50)DriftDentro del 10 por ciento del presupuestoDatos de costo de Azure
Tiempo de rollback después de anomalía de despliegueHoras< 5 minutosAzure AI Foundry
Experimentos reproducibles desde Git40 por ciento100 por cientoJobs de Azure Machine Learning

Madurez en cuatro niveles

  • L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
  • L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
  • L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
  • L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.

Integración con otras personas

  • Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
  • Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
  • Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
  • Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
  • Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
  • Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
  • Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.

Glosario

  • Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
  • Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
  • Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
  • Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
  • Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
  • Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
  • Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.

Referencias

Paula Silva | Software Global Black Belt

Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.

Building the future of software development with AI and Agentic DevOps.

Knowledge Hub · v3.4.0 · 2026-06-17
paulasilva · 2026-06-17 EN · PT-BR · ES