2026-01-10 AI Agent 评估体系完全指南:Anthropic 的实战经验 Anthropic 工程团队分享的构建 AI Agent 评估系统的最佳实践,涵盖评估结构、评分方法、不同类型 Agent 的评估策略,以及从零到一构建评估体系的具体路线图。 AI 工程AgentEvalClaude