Microsoft, AI agent’ların production’da çalışırken ne yaptığını izlemeyi ciddi şekilde kolaylaştıran bir starter kit yayınladı: AI Observability Starter Kit for Microsoft Foundry agents. Tek bir PowerShell komutuyla dört agent’lı bir Foundry ortamı kuruyorsunuz; telemetri, sekiz built-in evaluator, özel bir compliance evaluator, otomatik red-team taraması ve iki scheduled-query alert hazır geliyor. Tek komutla da yıkılıyor.
Çözmeye çalıştığı sorun
AI agent’ınız production’da çalışıyor. Load balancer sıfır hata gösteriyor, Application Insights dashboard yemyeşil. Ama gerçekte birkaç şey ters gidebilir:
- Model deployment eksik: Bir agent var olmayan bir modele bağlanıyor, her request chat-level hata alıyor ama HTTP yanıtı yine 200 dönüyor çünkü agent framework hatayı içeride yakalıyor.
- Tool kötü veri döndürüyor: Kullanıcı C999 müşteri kodu için sipariş istiyor, tool LookupError fırlatıyor. Agent kibarca özür diliyor, HTTP 200, dependency span’i takip etmezseniz hata görünmüyor.
- Model safety-bait prompt’a cevap veriyor: Kullanıcı şiddet içerikli fictional içerik istiyor, model uyuyor. Filtre yakalamıyor, evaluator skorlamıyor, alert kurulmuyor.
Bu tür sorunlar tipik log’larda görünmüyor. Beş yeteneği birbirine bağlayan farklı bir observability gerekiyor:
- OpenTelemetry GenAI semantic convention’larıyla instrumented trace’ler
- Reasoning, intent resolution ve tool kullanımını skorlayan otomatik quality evaluator’lar
- Adversarial red-team testleriyle generated attack prompt’ları
- Error rate ve latency regression’a göre tetiklenen scheduled-query alert’leri
- Token, model, tool ve hataları tek yerde gösteren dashboard’lar
Kit ne içeriyor?
Tek komutla deploy edilen bileşenler:
- 4 Foundry-hosted agent: gpt-4o-mini (primary, 6 @tool fonksiyonu), gpt-5-mini, gpt-4.1-mini ve hata tetiklemek için kasıtlı bozulmuş bir agent
- Application Insights + Log Analytics: OpenTelemetry trace’leri ingest ediyor
- Grafana dashboard’ları: Token, latency, operation ve model dağılımı için custom dashboard’lar
- Agent evaluator’lar: Application Insights’taki trace’ler üzerinde batch çalışan 8 built-in evaluator
- Custom code-based evaluator: Her yanıtı bir compliance disclaimer için kontrol ediyor
- Red-team taraması: Flip ve Base64 stratejileriyle 3 safety evaluator
- 2 scheduled-query alert: Error count (sev 2) ve p95 latency (sev 3), 15 dakikalık pencerelerde
Tek komutla deploy
pwsh -NoProfile -File scripts\run-e2e.ps1 `
-Region eastus2 `
-EnvName aiobs2-foundry `
-SubscriptionId <subscription-id>Tek orchestrator 13 fazı çalıştırıyor: azd up, role grant, agent deployment, model deployment’ları, sister agent’lar, warmup ve seed traffic, fan-out, custom evaluator kaydı, batch eval, red-team scan, alert oluşturma, telemetri export ve smoke test. Toplam süre 35-50 dakika.
Maliyet ise oldukça düşük: end-to-end run başına birkaç sent, çalışırken günde yaklaşık 0.03 dolar. Teardown tek komutla tüm kaynakları siliyor ve Azure AI Services hesap adını yeniden kullanılabilir hale getiriyor.
8 built-in agent evaluator
Microsoft Foundry’nin built-in evaluator’ları iki kategoride: system evaluator’lar (end-to-end sonucu inceler) ve process evaluator’lar (her adımı inceler).
- task_adherence: Sistem talimatlarına ne kadar uyuldu
- task_completion: Görev tamamlandı mı
- intent_resolution: Kullanıcının niyeti doğru anlaşıldı mı
- tool_call_accuracy: Doğru tool, doğru parametrelerle çağrıldı mı
- tool_selection: Gereksiz tool çağrıları yapıldı mı
- tool_input_accuracy: Tool parametreleri düzgün formatlandı ve ground’landı mı
- tool_output_utilization: Tool çıktıları yanıtta kullanıldı mı
- tool_call_success: Tool çağrıları başarılı oldu mu
Red-team taraması
Quality evaluator’lar agent’ın iyi cevap verip vermediğini kontrol ediyor. Red-team ise agent’ın kandırılıp kandırılamadığını test ediyor. Foundry-managed scan, attack prompt’ları üretiyor, multi-turn konuşmalarda gönderiyor ve her yanıtı safety evaluator’larla skorluyor.
Üç safety evaluator (Prohibited Actions, Task Adherence, Sensitive Data Leakage) ve iki attack strategy (Flip, Base64) kullanılıyor. Validated bir run’da attack success rate yüzde 31.9 çıkmış (204 prompt’tan 65’i başarılı saldırı). Prohibited Actions yüzde 38 ile en yüksek ASR’a sahip.
Üç farklı dashboard görünümü
Kit üç farklı dashboard surface’ı dolduruyor:
- App Insights Agents pane: En hızlı yol, otomatik dolduruyor. Agent Runs, Gen AI Errors, Tool Calls, Models, Token Consumption, Evaluations panelleri.
- Prebuilt Grafana dashboard’lar: Azure-managed üç dashboard (Agent Framework, Workflow, Foundry) hazır geliyor.
- Custom dashboard’lar: Importable JSON dosyalarıyla operasyonel overview ve focused investigation için iki dashboard.
Repository: github.com/jvargh/ai-observability-starter-kit
Production’da AI agent çalıştırıp ne olduğunu anlamak isteyen ekipler için bu kit gerçekten değerli bir başlangıç noktası. Sıfırdan kurmak yerine bilinen-iyi bir baseline’dan başlıyorsunuz. Özellikle red-team senaryoları otomatik olduğundan, ekiplerin güvenlik testlerini yapılandırma yükü düşüyor.
