琅琊苑 - Chozzc的blog

推理型模型上生产：可能更聪明，但是更难控

年初那波“推理更强”的模型热潮来得很快：榜单刷屏、Demo 震撼，朋友圈的结论也很统一——“以后只要把问题喂给模型，它自己会想明白”。我很想相信这句话。直到我们把推理型模型接进生产链路的第三天，线上报警把我从午睡里拎起来：P95 延迟翻倍、Token 成本像漏水一样持续上升，最尴尬的是——答案“看起来更像对的”，但用户依旧不满意。这篇文章不聊宏大叙事，只写我踩过的坑：推理型模型在生产里到...
2025-02-23
技术分享
AI

| LLM

| 实战经验
Read more推理型模型上生产：可能更聪明，但是更难控
2024与AI协作的十个月实战手记

从ChatGPT到Deepseek，经历了大语言模型的迭代周期后，我逐渐摸索出一套与AI协作的生存法则。这份手记没有晦涩的理论，只有踩过坑的实战经验。一、工具进化论（1）认知加速器某次面试前需要快速理解强化学习，AI用这样的比喻让我5分钟建立认知框架： “想象你在训练导盲犬：正确绕开障碍物 → 奖励狗粮撞到路灯杆 → 无惩罚但记入经验算法就是通过数百万次这样的试错，最终生...
2025-01-27
技术分享
AI

| 实战经验

| 效率工具
Read more2024与AI协作的十个月实战手记
散文五:《小雪札记》

冬天总是从某个清晨开始的。窗玻璃蒙上一层淡白，呼出的气在空气里慢慢落定。我把厚围巾从柜顶取下，像久违的旧友。街角的早餐铺又冒起热气，一碗豆腐脑把冷意从体内驱散。跨年之前的日子像一个小抽屉，被我认真分类。把不必带走的放下，把必须带走的擦干净。雪还没来，但冬已经凭借一些迹象到场：更早的日落，更低的风，更慢的脚步。
2024-12-10
诗词歌赋
原创

| 散文

| 初冬
Read more散文五:《小雪札记》
LLM 成本治理实践：Token、缓存与预算看板

十一月我们终于把“大模型花钱如流水”的问题控制住了。这篇文章总结了token成本治理的三板斧：监控、缓存、策略。 1. 成本透视：先把账算清楚 Provider：OpenAI + 本地自建模型；核心问题： Prompt 过长（平均 3.4K token），上下文冗余严重；重复问题未复用缓存；缺乏预算告警，月底才发现爆雷。我们搭建了一个“Token 账本”Pipeline： 1...
2024-11-11
技术分享
LLM

| 运维

| 成本控制
Read moreLLM 成本治理实践：Token、缓存与预算看板
前端可观测性不是“埋点工具”：我们如何构建指标闭环

这篇文章记录我们在十月完成的可观测性改造：目标是让前端团队对性能、错误、用户体验有“实时可见 + 可追溯 + 可复盘”的能力。工具不是重点，体系才是。 1. 限定边界与目标三个核心问题：用户是否能在 3 秒内看到首屏？前端错误出现时，我们能定位到具体版本与用户？产品指标（转化、留存）与体验指标如何关联？我们设定的 SLO： FCP P75 ≤ 1.8s JS 错误率 ≤ 0....
2024-10-19
技术分享
前端

| 实战经验

| 监控
Read more前端可观测性不是“埋点工具”：我们如何构建指标闭环
诗三:《初熟》

田陌风升稻谷香，斜阳偷照半墙黄。人归不语门前树，只与秋声话一场。
2024-09-22
诗词歌赋
原创

| 诗

| 早秋
Read more诗三:《初熟》
Feature Flag + 金丝雀：用数据驱动上线与回滚

九月上线会员中心重构，我们把“功能开关 + 金丝雀发布”组合成一套稳定的上线流程。过程里踩过的坑、指标、SLO、回滚策略这里统一记录。 1. 体系搭建 Flag 平台：LaunchDarkly（SaaS）+ 内网代理；金丝雀策略：按用户分群（10%→30%→70%→100%）； SLO： API 错误率 < 0.5% 核心转化率（下单）下降不超过 3% 页面加载 P75 < ...
2024-09-14
技术分享
实战经验

| Feature Flag

| 金丝雀发布
Read moreFeature Flag + 金丝雀：用数据驱动上线与回滚
向量数据库选型记：Milvus vs. Chroma 的一周对比实验

LLM 项目落地到检索增强（RAG）时，向量数据库是关键决策。八月我们做了一次为期一周的“真数据”对比实验，结论写在前面：如果你要支撑 >1000 QPS 的检索，Milvus + GPU 索引值得投入；如果是中小团队 + 快速迭代，Chroma 足够但要注意运维策略。 1. 实验设计数据集：13 万条中文 FAQ（平均 120 token），使用 bge-large-zh 向量化...
2024-08-24
技术分享
向量检索

| RAG

| Milvus
Read more向量数据库选型记：Milvus vs. Chroma 的一周对比实验
FastAPI 上线的另一面：容器化、并发与回滚的全链路调优

七月我们把两个 FastAPI 服务从“实验室”推到生产，踩过的坑一次性写清楚：如何包 Docker、怎么压测并发、如何在 Kubernetes 里优雅地滚动升级，以及出问题时如何两分钟内回滚。 1. 基础算力与容器基线基础镜像：python:3.11-slim 包管理：uv（替代 pip/poetry，构建速度更快） Web 服务：uvicorn[standard] Doc...
2024-07-18
技术分享
FastAPI

| 性能优化

| 云原生
Read moreFastAPI 上线的另一面：容器化、并发与回滚的全链路调优
Core Web Vitals 不是玄学：一次端到端的前端性能体检

六月给某公司官网做了一次性能“体检”，目标很明确：把 LCP 压到 2.5s 内，把 INP 控制在 200ms 内。以下是完整的拆解，包含指标采集、CDN 调参、前端代码改造以及回归验证。 1. 现状扫描：指标先于直觉数据来源：Chrome UX Report、WebPageTest、自建 RUM（埋点来自 Boomerang）真实数据（改造前）：指标 P75 目标备注 ...
2024-06-16
技术分享
前端

| 性能优化

| Core Web Vitals
Read moreCore Web Vitals 不是玄学：一次端到端的前端性能体检

123