如果说 2023 年是”大模型之年”,2024 年是”RAG 之年”,那么 2025 年无疑是 “Agent 编排之年”。本文将从定义边界、框架选型、协议革命(MCP)以及落地避坑等多个维度,结合行业最新趋势,给出可复用的架构蓝图。
0. 核心认知与边界:AI 员工能力金字塔在写代码之前,先把 Chatbot 和 Agent 的界限画清楚,这直接决定了你的架构复杂度。
Chatbot (C...
截至2025末,AI 领域迎来了史诗级的模型发布潮:OpenAI 的 GPT-5.2、Google 的 Gemini 3 Pro、Anthropic 的 Claude Opus 4.5,以及开源阵营的 glm4.7 和 Deepseek3.2。这不是一场简单的参数竞赛,而是 能力分化与生态重构 的开端。本文将从实战视角出发,结合最新的 Benchmark 数据,探讨不同模型在真实业务场景中的...
疏影横斜桂露寒,银河倒浸小窗栏。云开一夜人如水,风过千山月在盘。
旧事暗随灯外雨,新词静与叶间蝉。相思不问秋将晚,独向清光理笔端。
上半年我做了很多 LLM 应用的工程化:工具、评测、观测、SLO。
但越做越会遇到一个很人类的问题:
我到底愿不愿意把自己的笔记、工作文档、碎碎念,全部交给云端?
答案并不总是“愿意”。
所以 7 月我做了一个决定:把“第二大脑”尽量留在本地。不是反云端,而是反“默认上传”。
这篇文章写一个偏个人但很工程的实践:本地优先的知识检索与问答,怎么做才不鸡肋。
1. 为什么今年本地化突然又热...
盛夏光年窗外的蝉声已经持续了整整一周,从清晨的试探性鸣叫,到午后的肆意喧嚣,再到傍晚的余韵袅袅,仿佛要把整个夏天的故事都讲完。
我坐在书桌前,翻开多年前的日记本,泛黄的纸页间还夹着一片梧桐叶。那是某个盛夏午后,我从校园梧桐树下捡来的——彼时的我总觉得,每一片叶子都藏着一个秘密,等待某个懂它的人将它珍藏。
时光如白驹过隙。曾经在烈日下挥汗如雨的操场,如今已改建成智能化的运动中心;那条种满夹竹桃...
做传统后端时,我们很习惯把系统健康讲清楚:延迟、错误率、吞吐、饱和度。
做 LLM 应用后,我发现一个尴尬现实:
你明明有 200 个指标
但当业务问“今天这玩意儿好用吗”
你还是答不上来
因为 Token、请求数、缓存命中率都很努力,但它们不回答“用户是否得到解决”。
这篇文章写我今年上半年做的一件事:把 LLM 应用的观测从“工程指标”推进到“回答 SLO”,让模型质量可以像服务质量...
麦浪翻金云欲低,蛙声十里稻田齐。竹阴深处午风稀。
小扇轻摇消暑气,新荷初展映斜晖。一年忙种又忙衣。
注:芒种时节,南方已是麦收稻种之时,农事繁忙。此词写初夏农村景象,”忙种又忙衣”化用”春种一粒粟,秋收万颗子”之意,寓四时更替、勤劳不辍之理。
如果你在 2025 年还做 RAG,却从来没被“提示注入”吓醒过,我会替你开心——也会替你担心。
我们第一次遇到提示注入,不是在红队演练里,也不是在安全报告里,而是在一个看起来再正常不过的知识库文档里。
那晚的事故很“温柔”:没有数据泄露,没有大面积宕机,只是客服同学发现——模型开始用一种奇怪的语气回复用户,而且会无视我们写好的业务规则。
这篇文章写复盘:提示注入为什么会发生、为什么我说它更...
我一直觉得“让模型按格式输出”是一件很小的事。
直到我们把一个看似简单的需求(把用户需求解析成结构化任务)接进前端流程:按钮点下去要立刻渲染卡片、再驱动后续工具调用。
那一周我们见识了人类语言的任性,也见识了模型的任性:
同一个字段名,有时叫 title,有时叫 task_title
需要数组,它给你一段自然语言列表
少一个逗号,前端就白屏
最后我们发现:这不是“格式化”问题,这是“契约...
如果你今年还在做 LLM 应用,大概率逃不开两个词:Agent、工具调用。
我见过最常见的“进度条幻觉”是:
接上函数调用
加几个工具(搜索、SQL、发工单、查监控)
让模型自己规划
然后就以为“Agent 诞生了”。
真实情况是:你得到了一堆脆弱的胶水代码——工具签名变了就炸、权限稍微复杂就绕不过去、工具多一点模型就乱点按钮。
这篇文章我想谈一个更朴素的结论:当工具多到一定规模,你需要...