相比傳統大型語言模型(LLM),Claude 3.7 的獨特之處在于整合了快速本能反應與深思熟慮的推理能力,類似于邁克爾·卡尼曼《思考快與慢》中描述的系統 1 和系統 2 思維。傳統 LLM 擅長即時生成連貫文本,但在需要逐步推理的任務(如算術或復雜規劃)上表現有限。Anthropic 通過強化學習優化 Claude 3.7,利用額外人類數據訓練模型生成準確答案。研究產品負責人 Dianne Penn 指出,模型特別針對業務場景進行了增強,涵蓋代碼編寫與修復、計算機操作及復雜法律問題處理。她強調:“我們在技術領域和長時推理任務上實現了改進,以滿足客戶將模型應用于實戰的需求。”
Claude 3.7 在編碼能力上表現突出,特別是在需要逐步推理的任務中,超越 OpenAI 的 o1 模型,在 SWE-bench 等基準測試中取得領先成績。為進一步支持開發者,Anthropic 同步發布 Claude Code 工具,專為 AI 輔助編碼設計。Penn 表示:“模型已具備出色編碼能力,而在處理大型代碼庫等復雜規劃場景時,額外推理功能尤為關鍵。”相比 OpenAI 的 o3 和谷歌的 Gemini Flash Thinking,用戶無需切換模型即可享受靈活推理體驗。