16 data · Implementation

ML AI EngineerEngenheiro de ML e IAML/AI Engineer

Model training and evals.Treino e avaliação de modelos.Entrenamiento y evaluación de modelos.

2026-04-24 14 sections Download the GitHub Copilot kitBaixar o kit do GitHub CopilotDescargar el kit de GitHub Copilot

The ML AI Engineer is the persona that brings models and LLM-powered features from prototype to production. In an AI-native SDLC, the ML AI Engineer operates an Eval Runner agent, four slash prompts, and a validated MCP catalog centered on Azure AI Foundry, Azure OpenAI, and Azure Machine Learning — not a pile of ad-hoc notebooks.

Executive summary

The ML AI Engineer is responsible for the reliability of AI behavior: model quality, prompt stability, routing decisions, and deployment topology. In an AI-native SDLC, the role is operationalized through a single Eval Runner agent, four slash prompts, scoped instructions, and validated MCPs reaching into Azure AI Foundry, Azure OpenAI, Azure Machine Learning, and Microsoft Learn Docs MCP.

Primary deliverables are versioned evaluation suites, model-routing configurations with traceable decisions, prompt regression dashboards, and Foundry deployment artifacts with rollback plans. The ML AI Engineer closes the loop from model change to production telemetry: no model ships without an eval baseline, and no regression survives overnight.

AI behavior is software behavior. Evals are tests, prompts are code, routing is configuration, and deployments are PRs. The ML AI Engineer makes the AI layer obey the same governance as every other system in production.

Role and responsibilities

Think of the ML AI Engineer like a pharmaceutical process engineer. The chemist invents the compound; the process engineer ensures every batch meets the monograph, with tests at each stage. In an AI-native SDLC, the ML AI Engineer turns exploratory model work into repeatable, auditable production behavior.

Primary responsibilities:

Maintain the evaluation suite: datasets, metrics, regressions per feature
Operate model routing (which model, which version, which tenant) in Azure AI Foundry
Track prompt changes with regression tests and diff reports
Deploy models and agents to Azure AI Foundry with rollback-ready artifacts
Train and fine-tune models in Azure Machine Learning with versioned experiments
Integrate safety systems (content filters, Purview sensitivity) into the model pipeline
Operate the Eval Runner agent and /eval-suite, /model-route, /prompt-regression, /foundry-deploy prompts
Collaborate with the Data Engineer on feature datasets and with the InfoSec Officer on threat models for AI

Jobs to be done

As an ML AI Engineer, I want every prompt change gated by a regression test, so that quality does not silently degrade.
As an ML AI Engineer, I want eval suites versioned with the model, so that I can reproduce any past baseline on demand.
As an ML AI Engineer, I want safe production deploys via Azure AI Foundry with one-click rollback, so that incidents do not leave users stranded.
As an ML AI Engineer, I want model routing to be code, not tribal knowledge, so that every routing decision is reviewable.
As an ML AI Engineer, I want safety filters integrated and tested, so that content-safety violations are caught in CI.
As an ML AI Engineer, I want training experiments logged in Azure Machine Learning, so that reproducibility is automatic.
As an ML AI Engineer, I want Application Insights signals from deployed models to feed the next eval, so that the loop closes itself.
As an ML AI Engineer, I want cost and latency budgets enforced per model and per tenant, so that runaway inference is impossible.

Pain points before AI-native

Eval-free prompt changes. Prompts changed in a hurry regress quality; no one notices until a user complains.
Model roulette. Which model served a given request? No one can tell; support cases take hours to reproduce.
Deploy and pray. Models deployed by hand to Azure AI Foundry or OpenAI endpoints without a rollback plan.
Cost explosions. A badly designed chain calls GPT-class models a hundred times per request; the bill arrives at month end.
Safety as afterthought. Content filters and PII redaction added only after an incident.
Training lineage lost. The best model’s training artifacts exist only on a laptop.
Prompt-in-code. Prompts embedded in application code instead of version-controlled files with reviews.

AI-native daily workflow

The ML AI Engineer works from Visual Studio Code with GitHub Copilot and from the terminal with Claude Code, driving the Eval Runner across the day.

Morning setup

Open Azure AI Foundry and Application Insights dashboards; review overnight inference metrics and safety-filter events.
In VS Code, run /eval-suite --since=yesterday to see any eval regressions on merged prompts or models.
Triage PRs that change prompts or routing; the Eval Runner has pre-posted /prompt-regression diffs.
Confirm Azure Machine Learning experiment queue from the training track.
Sync with the Data Engineer on new or changed feature datasets feeding training.

Midday execution

For each feature change, run /eval-suite against the proposed model or prompt; fail the PR if the score drops below threshold.
For routing changes, invoke /model-route to generate or update the routing configuration with decision rationale.
Implement training runs through /foundry-deploy --stage=experiment; results are logged in Azure Machine Learning.
Keep prompts in prompts/*.prompt.md with scoped instructions; no prompts inline in application code.

Afternoon review

Deploy approved models via /foundry-deploy --stage=prod. Azure AI Foundry receives a versioned deployment with rollback metadata.
Watch the next hour of Application Insights telemetry for anomalies; roll back automatically if guardrails trip.
Review cost telemetry per tenant; open issues for outliers.

Recommended primitives

Agent

Agent	File	Purpose
`eval-runner`	`.github/agents/eval-runner.agent.md`	Runs eval suites, prompt regressions, routing updates, Foundry deploys

Slash prompts

Command	File	Purpose
`/eval-suite`	`.github/prompts/eval-suite.prompt.md`	Run the evaluation suite and publish scored reports
`/model-route`	`.github/prompts/model-route.prompt.md`	Update and validate the model-routing configuration
`/prompt-regression`	`.github/prompts/prompt-regression.prompt.md`	Run regression tests against changed prompts
`/foundry-deploy`	`.github/prompts/foundry-deploy.prompt.md`	Stage or promote a model or agent in Azure AI Foundry with rollback metadata

Instructions scoped

Scope (`applyTo`)	File	Purpose
`prompts/*/.prompt.md`	`.github/instructions/prompts.instructions.md`	Prompt structure, version header, safety block, eval reference
`evals/*/.yaml`	`.github/instructions/evals.instructions.md`	Eval dataset structure, metric definitions, thresholds
`foundry/*/.bicep`	`.github/instructions/foundry.instructions.md`	Azure AI Foundry deployment templates, identity, rollback
`aml/*/.py`	`.github/instructions/aml.instructions.md`	Azure Machine Learning experiment scaffolding

Hooks

pre-commit: lint prompts, check required metadata headers, redact secrets
pre-push: run eval subset on changed prompts and models
post-merge: run full eval suite and publish the dashboard
pre-deploy: enforce rollback metadata and Foundry policy gates
post-deploy: watch Application Insights for 60 minutes; auto-rollback on anomaly

Validated MCPs

MCP	Purpose	Owner
GitHub MCP Server	PRs, Actions runs, eval report comments	GitHub
Azure MCP Server	Operate Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights	Microsoft
Microsoft Learn Docs MCP	Look up current guidance on Foundry, OpenAI, and AML patterns	Microsoft
Azure DevOps MCP Server	Track ML experiments as work items when the team uses Azure DevOps	Microsoft
Playwright MCP	End-to-end evaluation of AI features embedded in web UIs	Microsoft

Real examples

Example 1: gating a prompt change

A Product Owner requests a friendlier tone in a support assistant. A PR edits prompts/support-assistant.prompt.md. The pre-push hook runs /prompt-regression; the Eval Runner scores the change against the versioned eval suite. Two helpfulness metrics rise, but a groundedness metric drops below threshold. The PR is blocked; the ML AI Engineer adds a constraint to the prompt; the next run passes and the PR merges.

Example 2: safe model upgrade

A new version of GPT-class model becomes available in Azure OpenAI. The ML AI Engineer opens a PR modifying the routing config via /model-route. /eval-suite runs against a held-out dataset; cost and latency budgets are respected; safety-filter activations stay inside tolerance. /foundry-deploy --stage=prod deploys; post-deploy monitoring for 60 minutes confirms no regression. The old version stays hot for 24 hours for rollback.

Example 3: closing the telemetry loop

Application Insights shows a spike in hallucinated entity mentions for a specific tenant. The ML AI Engineer invokes /eval-suite --from=prod-telemetry --tenant=acme; the Eval Runner builds a new eval slice from recent cases, runs it against two candidate prompts, and recommends the winner. A PR lands the change with the new eval slice added to the regression suite permanently.

Anti-patterns

Prompts in application code. Inline prompts cannot be reviewed as changes; keep them in prompts/*.
Evals optional. Every production-facing prompt or model has at least one eval dataset with thresholds.
Hand-built routing. Routing as a series of if-statements in code is unreviewable; keep it in a declarative config.
Deploys without rollback. Every Foundry deployment ships with metadata enabling one-click rollback.
Training on a laptop. Use Azure Machine Learning; experiments must be reproducible from the job definition.
Safety filters bolted on. Content safety is part of the pipeline from the start, not an incident response.
Evals that never change. Eval datasets rot; add real production cases regularly via telemetry loops.

KPIs and impact metrics

Metric	Baseline (manual)	Target (agentic)	Source
Prompt regressions shipped to prod	4 per quarter	0	Eval Runner history
Eval coverage on production prompts	30 percent	100 percent	Repo scan
Time from model release to evaluated prod deploy	2 weeks	< 2 days	GitHub + Azure AI Foundry
Safety-filter violations per 1M requests	Unmeasured	< 10	Application Insights
Cost per 1K requests (p50)	Drift	Within 10 percent of budget	Azure cost data
Rollback time after deploy anomaly	Hours	< 5 minutes	Azure AI Foundry
Experiments reproducible from Git	40 percent	100 percent	Azure Machine Learning jobs

Maturity in four levels

L1 Manual: Prompts in code, evals in notebooks, deploys by console clicks, no routing config.
L2 Assisted: Copilot drafts prompts and training code, evals in a notebook, single-model setup.
L3 Augmented: Eval Runner agent, four slash prompts, scoped instructions, Foundry deploys from GitHub Actions.
L4 Autonomous: Prompt and routing changes gated by evals, telemetry feeding the next eval automatically, rollback on anomaly within five minutes.

Integration with other personas

From Data Engineer: curated feature datasets in Microsoft Fabric with documented lineage.
From Software Architect: AI topology decisions (which tier calls which model) and latency budgets.
To Developer: prompt files and routing config consumed from the repo; no inline prompts.
With InfoSec Officer: AI threat model, content-safety configuration, PII redaction policies.
With SRE: production monitoring, rollback automation, cost telemetry.
To Product Owner: eval dashboards and regression reports during release review.
With Compliance Auditor: model cards, training provenance, safety filter evidence.

Glossary

Eval suite: a versioned set of datasets, metrics, and thresholds used to score a model or prompt.
Prompt regression: a comparison of eval scores before and after a prompt change.
Routing: the declarative mapping from request context to model, version, and parameters.
Foundry deployment: a versioned release of a model or agent in Azure AI Foundry with rollback metadata.
Groundedness: a metric describing how faithfully a model’s answer reflects its retrieved context.
Safety filter: an Azure content-safety component that blocks or flags disallowed outputs.
Telemetry loop: the process of turning production signals into new eval cases.

References

Azure AI Foundry documentation — agents, models, evaluations
Azure OpenAI Service — OpenAI models via Azure
Azure Machine Learning — training and experiment tracking
Azure AI Content Safety — safety filtering
Application Insights for LLM apps — production telemetry
GitHub Copilot and agents — developer workflow integration
Microsoft Purview for AI data governance — sensitivity classification of training data
GitHub Actions — CI and deployment orchestration across the stack
Microsoft Learn Docs MCP — first-party documentation retrieval at implementation time
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection

O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.

Resumo executivo

O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.

As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.

Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.

Papel e responsabilidades

Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.

Responsabilidades primárias:

Manter a suíte de avaliação: datasets, métricas, regressões por feature
Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
Rastrear mudanças de prompt com testes de regressão e relatórios de diff
Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
Operar o agente Eval Runner e os prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA

Jobs to be done

Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.

Dores antes do AI-nativo

Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.

Fluxo diário AI-nativo

O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.

Setup da manhã

Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
No VS Code, rode /eval-suite --since=yesterday para ver quaisquer regressões de avaliação em prompts ou modelos merged.
Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de /prompt-regression.
Confirme a fila de experimentos do Azure Machine Learning do track de treino.
Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.

Execução no meio do dia

Para cada mudança de feature, rode /eval-suite contra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar.
Para mudanças de roteamento, invoque /model-route para gerar ou atualizar a configuração de roteamento com justificativa de decisão.
Implemente execuções de treino através de /foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning.
Mantenha prompts em prompts/*.prompt.md com instruções com escopo; nenhum prompt inline no código da aplicação.

Revisão no fim da tarde

Deploye modelos aprovados via /foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback.
Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
Revise telemetria de custo por tenant; abra issues para outliers.

Primitivas recomendadas

Agente

Agente	Arquivo	Propósito
`eval-runner`	`.github/agents/eval-runner.agent.md`	Roda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry

Slash prompts

Comando	Arquivo	Propósito
`/eval-suite`	`.github/prompts/eval-suite.prompt.md`	Rodar a suíte de avaliação e publicar relatórios com scores
`/model-route`	`.github/prompts/model-route.prompt.md`	Atualizar e validar a configuração de roteamento de modelos
`/prompt-regression`	`.github/prompts/prompt-regression.prompt.md`	Rodar testes de regressão contra prompts alterados
`/foundry-deploy`	`.github/prompts/foundry-deploy.prompt.md`	Promover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback

Instruções com escopo

Escopo (`applyTo`)	Arquivo	Propósito
`prompts/*/.prompt.md`	`.github/instructions/prompts.instructions.md`	Estrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação
`evals/*/.yaml`	`.github/instructions/evals.instructions.md`	Estrutura de dataset de avaliação, definições de métricas, limiares
`foundry/*/.bicep`	`.github/instructions/foundry.instructions.md`	Templates de deploy do Azure AI Foundry, identidade, rollback
`aml/*/.py`	`.github/instructions/aml.instructions.md`	Scaffolding de experimentos do Azure Machine Learning

Hooks

pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredos
pre-push: rodar subconjunto de avaliação em prompts e modelos alterados
post-merge: rodar suíte de avaliação completa e publicar o dashboard
pre-deploy: enforçar metadados de rollback e gates de política do Foundry
post-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia

MCPs validados

MCP	Propósito	Dono
GitHub MCP Server	PRs, execuções do Actions, comentários de relatório de avaliação	GitHub
Azure MCP Server	Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights	Microsoft
Microsoft Learn Docs MCP	Consultar orientação atualizada sobre padrões de Foundry, OpenAI e AML	Microsoft
Azure DevOps MCP Server	Rastrear experimentos de ML como work items quando o time usa Azure DevOps	Microsoft
Playwright MCP	Avaliação ponta a ponta de features de IA embutidas em UIs web	Microsoft

Exemplos reais

Exemplo 1: bloqueando uma mudança de prompt

Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.

Exemplo 2: upgrade seguro de modelo

Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.

Exemplo 3: fechando o loop de telemetria

Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.

Anti-padrões

Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em prompts/*.
Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.

KPIs e métricas de impacto

Métrica	Linha base (manual)	Meta (agêntico)	Fonte
Regressões de prompt entregues em produção	4 por trimestre	0	Histórico do Eval Runner
Cobertura de avaliação em prompts de produção	30 por cento	100 por cento	Scan do repo
Tempo do release de modelo ao deploy avaliado em produção	2 semanas	< 2 dias	GitHub + Azure AI Foundry
Violações de filtro de segurança por 1M de requests	Não medido	< 10	Application Insights
Custo por 1K requests (p50)	Deriva	Dentro de 10 por cento do orçamento	Dados de custo Azure
Tempo de rollback após anomalia de deploy	Horas	< 5 minutos	Azure AI Foundry
Experimentos reproduzíveis a partir do Git	40 por cento	100 por cento	Jobs do Azure Machine Learning

Maturidade em quatro níveis

L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.

Integração com outras personas

Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.

Glossário

Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.

Referências

Documentação do Azure AI Foundry — agentes, modelos, avaliações
Azure OpenAI Service — modelos OpenAI via Azure
Azure Machine Learning — treino e rastreamento de experimentos
Azure AI Content Safety — filtragem de segurança
Application Insights para apps de LLM — telemetria de produção
GitHub Copilot e agentes — integração no workflow do desenvolvedor
Microsoft Purview para governança de dados de IA — classificação de sensibilidade de dados de treino
GitHub Actions — orquestração de CI e deploy em todo o stack
Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection

El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.

Resumen ejecutivo

El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.

Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.

El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.

Rol y responsabilidades

Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.

Responsabilidades principales:

Mantener la suite de evaluación: datasets, métricas, regresiones por feature
Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
Rastrear cambios de prompts con pruebas de regresión e informes de diff
Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
Operar el agente Eval Runner y los prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA

Jobs to be done

Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.

Puntos de dolor antes de la era AI-nativa

Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.

Flujo diario AI-nativo

El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.

Setup de la mañana

Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
En VS Code, ejecuta /eval-suite --since=yesterday para ver cualquier regresión de eval en prompts o modelos mergeados.
Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de /prompt-regression.
Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.

Ejecución al mediodía

Para cada cambio de feature, ejecuta /eval-suite contra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral.
Para cambios de routing, invoca /model-route para generar o actualizar la configuración de routing con la razón de la decisión.
Implementa ejecuciones de entrenamiento a través de /foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning.
Mantén prompts en prompts/*.prompt.md con instrucciones con alcance; sin prompts inline en código de aplicación.

Revisión al final de la tarde

Despliega modelos aprobados vía /foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback.
Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
Revisa telemetría de costo por tenant; abre issues para outliers.

Primitivas recomendadas

Agente

Agente	Archivo	Propósito
`eval-runner`	`.github/agents/eval-runner.agent.md`	Ejecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry

Slash prompts

Comando	Archivo	Propósito
`/eval-suite`	`.github/prompts/eval-suite.prompt.md`	Ejecuta la suite de evaluación y publica informes puntuados
`/model-route`	`.github/prompts/model-route.prompt.md`	Actualiza y valida la configuración de routing de modelos
`/prompt-regression`	`.github/prompts/prompt-regression.prompt.md`	Ejecuta pruebas de regresión contra prompts cambiados
`/foundry-deploy`	`.github/prompts/foundry-deploy.prompt.md`	Prepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback

Instrucciones con alcance

Alcance (`applyTo`)	Archivo	Propósito
`prompts/*/.prompt.md`	`.github/instructions/prompts.instructions.md`	Estructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval
`evals/*/.yaml`	`.github/instructions/evals.instructions.md`	Estructura de dataset de eval, definiciones de métricas, umbrales
`foundry/*/.bicep`	`.github/instructions/foundry.instructions.md`	Plantillas de despliegue de Azure AI Foundry, identidad, rollback
`aml/*/.py`	`.github/instructions/aml.instructions.md`	Scaffolding de experimentos de Azure Machine Learning

Hooks

pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretos
pre-push: ejecuta subset de eval en prompts y modelos cambiados
post-merge: ejecuta suite de eval completa y publica el dashboard
pre-deploy: ejecuta metadatos de rollback y gates de política de Foundry
post-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía

MCPs validados

MCP	Propósito	Dueño
GitHub MCP Server	PRs, ejecuciones de Actions, comentarios en informes de eval	GitHub
Azure MCP Server	Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights	Microsoft
Microsoft Learn Docs MCP	Busca orientación actual sobre patrones de Foundry, OpenAI y AML	Microsoft
Azure DevOps MCP Server	Rastrea experimentos de ML como work items cuando el equipo usa Azure DevOps	Microsoft
Playwright MCP	Evaluación end-to-end de features de IA incrustadas en UIs web	Microsoft

Ejemplos reales

Escenario A: validar un cambio de prompt

Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.

Escenario B: actualización segura de modelo

Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.

Escenario C: cerrando el loop de telemetría

Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.

Anti-patrones

Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en prompts/*.
Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.

KPIs y métricas de impacto

Métrica	Baseline (manual)	Objetivo (agéntico)	Fuente
Regresiones de prompt enviadas a prod	4 por trimestre	0	Historial de Eval Runner
Cobertura de eval en prompts de producción	30 por ciento	100 por ciento	Escaneo de repo
Tiempo desde lanzamiento de modelo a despliegue de prod evaluado	2 semanas	< 2 días	GitHub + Azure AI Foundry
Violaciones de safety-filter por 1M solicitudes	Sin medir	< 10	Application Insights
Costo por 1K solicitudes (p50)	Drift	Dentro del 10 por ciento del presupuesto	Datos de costo de Azure
Tiempo de rollback después de anomalía de despliegue	Horas	< 5 minutos	Azure AI Foundry
Experimentos reproducibles desde Git	40 por ciento	100 por ciento	Jobs de Azure Machine Learning

Madurez en cuatro niveles

L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.

Integración con otras personas

Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.

Glosario

Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.

Referencias

Documentación de Azure AI Foundry — agentes, modelos, evaluaciones
Azure OpenAI Service — modelos de OpenAI vía Azure
Azure Machine Learning — entrenamiento y rastreo de experimentos
Azure AI Content Safety — filtrado de seguridad
Application Insights para apps de LLM — telemetría de producción
GitHub Copilot y agentes — integración de flujo de trabajo de desarrollador
Microsoft Purview para gobernanza de datos de IA — clasificación de sensibilidad de datos de entrenamiento
GitHub Actions — orquestación de CI y despliegue en toda la pila
Microsoft Learn Docs MCP — recuperación de documentación de primer nivel en tiempo de implementación
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection

Executive summary

Role and responsibilities

Jobs to be done

Pain points before AI-native

AI-native daily workflow

Morning setup

Midday execution

Afternoon review

Recommended primitives

Agent

Slash prompts

Instructions scoped

Hooks

Validated MCPs

Real examples

Example 1: gating a prompt change

Example 2: safe model upgrade

Example 3: closing the telemetry loop

Anti-patterns

KPIs and impact metrics

Maturity in four levels

Integration with other personas

Glossary

References

Resumo executivo

Papel e responsabilidades

Jobs to be done

Dores antes do AI-nativo

Fluxo diário AI-nativo

Setup da manhã

Execução no meio do dia

Revisão no fim da tarde

Primitivas recomendadas

Agente

Slash prompts

Instruções com escopo

Hooks

MCPs validados

Exemplos reais

Exemplo 1: bloqueando uma mudança de prompt

Exemplo 2: upgrade seguro de modelo

Exemplo 3: fechando o loop de telemetria

Anti-padrões

KPIs e métricas de impacto

Maturidade em quatro níveis

Integração com outras personas

Glossário

Referências

Resumen ejecutivo

Rol y responsabilidades

Jobs to be done

Puntos de dolor antes de la era AI-nativa

Flujo diario AI-nativo

Setup de la mañana

Ejecución al mediodía

Revisión al final de la tarde

Primitivas recomendadas

Agente

Slash prompts

Instrucciones con alcance

Hooks

MCPs validados

Ejemplos reales

Escenario A: validar un cambio de prompt

Escenario B: actualización segura de modelo

Escenario C: cerrando el loop de telemetría

Anti-patrones

KPIs y métricas de impacto

Madurez en cuatro niveles

Integración con otras personas

Glosario

Referencias

Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.