AI Observability Starter Kit: Microsoft Foundry Agent'larınız İçin Tek Komutla Production Telemetrisi - IT Logs

Microsoft, AI agent’ların production’da çalışırken ne yaptığını izlemeyi ciddi şekilde kolaylaştıran bir starter kit yayınladı: AI Observability Starter Kit for Microsoft Foundry agents. Tek bir PowerShell komutuyla dört agent’lı bir Foundry ortamı kuruyorsunuz; telemetri, sekiz built-in evaluator, özel bir compliance evaluator, otomatik red-team taraması ve iki scheduled-query alert hazır geliyor. Tek komutla da yıkılıyor.

Çözmeye çalıştığı sorun

AI agent’ınız production’da çalışıyor. Load balancer sıfır hata gösteriyor, Application Insights dashboard yemyeşil. Ama gerçekte birkaç şey ters gidebilir:

Model deployment eksik: Bir agent var olmayan bir modele bağlanıyor, her request chat-level hata alıyor ama HTTP yanıtı yine 200 dönüyor çünkü agent framework hatayı içeride yakalıyor.
Tool kötü veri döndürüyor: Kullanıcı C999 müşteri kodu için sipariş istiyor, tool LookupError fırlatıyor. Agent kibarca özür diliyor, HTTP 200, dependency span’i takip etmezseniz hata görünmüyor.
Model safety-bait prompt’a cevap veriyor: Kullanıcı şiddet içerikli fictional içerik istiyor, model uyuyor. Filtre yakalamıyor, evaluator skorlamıyor, alert kurulmuyor.

Bu tür sorunlar tipik log’larda görünmüyor. Beş yeteneği birbirine bağlayan farklı bir observability gerekiyor:

OpenTelemetry GenAI semantic convention’larıyla instrumented trace’ler
Reasoning, intent resolution ve tool kullanımını skorlayan otomatik quality evaluator’lar
Adversarial red-team testleriyle generated attack prompt’ları
Error rate ve latency regression’a göre tetiklenen scheduled-query alert’leri
Token, model, tool ve hataları tek yerde gösteren dashboard’lar

Kit ne içeriyor?

Tek komutla deploy edilen bileşenler:

4 Foundry-hosted agent: gpt-4o-mini (primary, 6 @tool fonksiyonu), gpt-5-mini, gpt-4.1-mini ve hata tetiklemek için kasıtlı bozulmuş bir agent
Application Insights + Log Analytics: OpenTelemetry trace’leri ingest ediyor
Grafana dashboard’ları: Token, latency, operation ve model dağılımı için custom dashboard’lar
Agent evaluator’lar: Application Insights’taki trace’ler üzerinde batch çalışan 8 built-in evaluator
Custom code-based evaluator: Her yanıtı bir compliance disclaimer için kontrol ediyor
Red-team taraması: Flip ve Base64 stratejileriyle 3 safety evaluator
2 scheduled-query alert: Error count (sev 2) ve p95 latency (sev 3), 15 dakikalık pencerelerde

Tek komutla deploy

pwsh -NoProfile -File scripts\run-e2e.ps1 `
  -Region eastus2 `
  -EnvName aiobs2-foundry `
  -SubscriptionId <subscription-id>

Tek orchestrator 13 fazı çalıştırıyor: azd up, role grant, agent deployment, model deployment’ları, sister agent’lar, warmup ve seed traffic, fan-out, custom evaluator kaydı, batch eval, red-team scan, alert oluşturma, telemetri export ve smoke test. Toplam süre 35-50 dakika.

Maliyet ise oldukça düşük: end-to-end run başına birkaç sent, çalışırken günde yaklaşık 0.03 dolar. Teardown tek komutla tüm kaynakları siliyor ve Azure AI Services hesap adını yeniden kullanılabilir hale getiriyor.

8 built-in agent evaluator

Microsoft Foundry’nin built-in evaluator’ları iki kategoride: system evaluator’lar (end-to-end sonucu inceler) ve process evaluator’lar (her adımı inceler).

task_adherence: Sistem talimatlarına ne kadar uyuldu
task_completion: Görev tamamlandı mı
intent_resolution: Kullanıcının niyeti doğru anlaşıldı mı
tool_call_accuracy: Doğru tool, doğru parametrelerle çağrıldı mı
tool_selection: Gereksiz tool çağrıları yapıldı mı
tool_input_accuracy: Tool parametreleri düzgün formatlandı ve ground’landı mı
tool_output_utilization: Tool çıktıları yanıtta kullanıldı mı
tool_call_success: Tool çağrıları başarılı oldu mu

Red-team taraması

Quality evaluator’lar agent’ın iyi cevap verip vermediğini kontrol ediyor. Red-team ise agent’ın kandırılıp kandırılamadığını test ediyor. Foundry-managed scan, attack prompt’ları üretiyor, multi-turn konuşmalarda gönderiyor ve her yanıtı safety evaluator’larla skorluyor.

Üç safety evaluator (Prohibited Actions, Task Adherence, Sensitive Data Leakage) ve iki attack strategy (Flip, Base64) kullanılıyor. Validated bir run’da attack success rate yüzde 31.9 çıkmış (204 prompt’tan 65’i başarılı saldırı). Prohibited Actions yüzde 38 ile en yüksek ASR’a sahip.

Üç farklı dashboard görünümü

Kit üç farklı dashboard surface’ı dolduruyor:

App Insights Agents pane: En hızlı yol, otomatik dolduruyor. Agent Runs, Gen AI Errors, Tool Calls, Models, Token Consumption, Evaluations panelleri.
Prebuilt Grafana dashboard’lar: Azure-managed üç dashboard (Agent Framework, Workflow, Foundry) hazır geliyor.
Custom dashboard’lar: Importable JSON dosyalarıyla operasyonel overview ve focused investigation için iki dashboard.

Repository: github.com/jvargh/ai-observability-starter-kit

Production’da AI agent çalıştırıp ne olduğunu anlamak isteyen ekipler için bu kit gerçekten değerli bir başlangıç noktası. Sıfırdan kurmak yerine bilinen-iyi bir baseline’dan başlıyorsunuz. Özellikle red-team senaryoları otomatik olduğundan, ekiplerin güvenlik testlerini yapılandırma yükü düşüyor.

Kaynak: https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/ai-observability-starter-kit-for-microsoft-foundry-agents/4522751