从正确的废话到可行性幻觉

昨天午后，阳光正好，手边的咖啡冒着恰到好处的热气。手机屏幕亮起，是那位最近一头扎进AI世界的张同学发来的消息，带着一种初学者特有的、按捺不住的兴奋。他基本算是信息化和编程的小白，但借助大模型的力量，硬是“整”出了一套MCN业务流程的自动化方案，还附上了两段能跑的代码。

“我感觉这已经算是一份可行性研究了！”他信心满满地敲下这行字。

我笑着抿了口咖啡，点开了他发来的文件。这是一个知识提取的工作流：录一段主播的讲话，自动转成文字，优化掉“嗯嗯啊啊”，提炼出核心主题，最后再转成QA问答对，塞进知识库。整个流程由CrewAI驱动，被拆分成了几个听起来煞有介事的智能体——“文本预处理专员”、“主题内容筛选师”、“知识结构化专家”……一共两百来行代码，逻辑清晰，也确实能跑通。

然而，我的眉头却不自觉地皱了起来。看完之后，我没有感受到惊喜，甚至没有太多赞许的冲动，反而是一种哭笑不得的熟悉感涌上心头。这……不就是那种我们行内人一眼就能看穿的“正确的废话”吗？

我靠在椅子上，一时间不知道该如何回复。我知道，我的朋友正沉浸在一种前所未有的创造快感之中，他真真切切地感受到了LLM带来的强大“可行性”——那些过去遥不可及的技术门槛，仿佛一夜之间被夷为平地。而我，一个在信息化和智能化领域摸爬滚打了二十多年的老兵，看到的却是这片平地之上，一个更加巨大、也更具迷惑性的“幻觉”。

这种感觉，实在是太似曾相识了。它瞬间把我拉回了那个还没有LLM的年代，办公室里灯火通明，白板上画满了看似完美的流程图。

我的那些同事们，其中不乏有十多年经验的好手，他们提交的需求文档、设计的业务流程，也常常陷入同样的陷阱。流程图整齐规范，逻辑上严丝合缝，每个环节都显得那么“正确”，但就是经不起推敲。我记得有一次，一份关于生产系统的设计稿，把所有理想状态下的操作都描绘得如丝般顺滑，却对并发、异常、数据校验这些“脏活累活”避而不谈。我说，这方案就像一辆没有刹车和悬挂的跑车，只能在真空的理想赛道上跑。

久而久之，团队里流传开一个玩笑：“看见强哥的脸，就想起来哪些事儿还没做完；看不见他的时候，就感觉项目已经做完了。”

这句玩笑，与其说是在调侃我，不如说精准地描绘了一种普遍现象。我的出现，就像一个移动的“现实检查器”。我的那张脸，仿佛在替未来的用户、替系统的维护者、替那些可能发生的意外状况，提前发问。我并不是在吹毛求疵，也不是享受那种指出别人问题的快感，而是一种内化于心的本能——在看到任何一个设计时，我脑中已经开始预演它在一年后、被一万个用户使用时，可能会遇到的种种窘境。

“正确的废话”的本质，是点状思维对系统工程的粗暴简化。它用孤立的、线性的步骤，掩盖了真实世界中盘根错节的联系。它只解决了“What”（做什么）和“How”（怎么做）的表层问题，却完全忽略了那些真正决定一个系统生死的“Why”（为何而做）、“Who”（为谁而做），以及最重要的——“What if…”（万一……怎么办？）。它构建的，是一个脆弱的、一触即溃的“理想模型”，而非一个能在风雨中稳定运行的“鲁棒系统”。

而现在，LLM的出现，像一个超级放大器，将这种创造“正确废话”的能力提升到了一个全新的维度，并催生出了我朋友所感受到的那种“可行性幻觉”。

过去，要搭建一个NLP原型，你需要了解算法、配置环境、处理依赖，一套流程下来，至少需要一个专业团队数周的努力。而如今，一个下午，几行API调用，一个看似全能的AI工作流就诞生了。这极大地降低了创造的门槛，也让人轻易地产生了一种“最难的部分已经完成”的错觉。但残酷的现实是，万里长征，我们可能才刚刚抬起脚。

让我们回到我朋友的那个例子。他的那200来行代码，核心驱动力是几个简短的提示词，每个大约200字，硬编码在程序里。比如给“主题内容筛选师”的指令，大意就是“请你从这段文字里提炼出核心主题”。这是一个典型的“点”任务。

而在我们实际的生产系统中，一个核心业务的提示词，主干部分没有3000字根本打不住，在如今大模型长文本能力越来越强的背景下，跑到七八千字更是家常便饭。这绝非故弄玄虚，也不是单纯的文字堆砌。这200字与8000字的背后，是玩具与产品的鸿沟，是“临时工”与“数字员工”的鸿沟，是“作坊”与“工厂”的鸿沟。

这不只是一个比喻，而是我们团队刚刚用近50天时间换来的惨痛教训。就在不久前，我们雄心勃勃地计划打造一个“设计开发智能体”套装（参见《“超级单兵”赋能计划》）。蓝图很美好：先让AI抽取系统设计规范，然后定义出数据库设计、UI设计、代码生成和单元测试等几个各司其职的智能体。在纸面上，这是一个多么清晰、多么符合逻辑的自动化流程。

但现实迅速给了我们一记响亮的耳光。V1.0版本的智能体套装一上线，就像个被宠坏的实习生，立刻开始尽责地学习、引用甚至“创造性”地复制我们现有框架中堆积如山的“屎味代码”——这是我们对那些混乱、不规范、充满技术债的遗留代码的内部“爱称”。V1.0，惨败。

我们继而花了大量时间去“净化”环境，剔除那些最明显的坏味道。然后，我们推出了V2.0。结果呢？它依然失败。因为我们发现，问题比想象的更深。不仅仅是代码有“屎味”，连作为AI知识库源头的整个框架设计本身，都存在着结构性的缺陷。AI再聪明，投喂给它的“饲料”有问题，它产出的也只能是更高明的“垃圾”。

直到我们下定决心，对整个基础框架进行了伤筋动骨的重构，并基于对业务更深刻的理解，重新定义了智能体的职责——合并了后端开发与单元测试，增加了独立的“概要设计”智能体——我们才在磕磕绊绊中迎来了堪用的V3.0版本。这一趟从天真到现实的旅程，耗时近50天。最初那个看似完美的计划，正是典型的“可行性幻觉”，而这50天的挣扎，才是打磨一个真正可用的AI系统所必须付出的、沉甸甸的代价。

一个200字的提示词，像一句简单的口头指令：“嘿，帮我把这段话变成QA。”它关注的是一次性的、孤立的任务执行。它假设输入永远是标准的，输出的要求也无所谓，只要“像个QA”就行。

而一个8000字的提示词，对我而言，它不再是一个请求，而是在铸造一个数字化的“专家灵魂”。它是一份极其详尽的、注入到AI心智里的工作规约。

在动笔之前，我们必须像一个严谨的架构师那样去思考。首先，是它的核心身份（Core Layer）——你到底是谁？你是一位MCN行业的内容策略专家，还是一位严谨的知识库管理员？你的立场和视角，决定了你思考的起点。然后，是它的能力边界（Execution Layer）——你能做什么？你的知识是来自我提供的这份材料，还是可以自由发挥？你被授权对内容进行多大程度的改写？接着，是不可逾越的约束红线（Constraint Layer）——什么话题绝对不能碰？哪些词汇是禁忌？当我的要求与你的安全准则冲突时，你该听谁的？最后，才是那套精密复杂的操作流程（Operation Layer）——你该如何一步步地分析文本，如何识别关键信息，如何构建QA的JSON结构，如何为每个QA打上分类和标签，当遇到模棱两可的内容时，你应该提出疑问还是大胆猜测……

你看，这哪里还仅仅是一个“提示”，这分明就是一个微缩的、高度浓缩的系统设计文档。它定义了一个数字智能体的世界观、方法论和行为准则。而朋友代码里的那200字，更像是一张递给路人的、写着模糊地址的便条；而我们的8000字，则是一份包含了卫星定位、道路规则、紧急预案和目的地详细蓝图的导航手册。两者都能“指向”一个地方，但只有后者，才能保证安全、可靠、高效地抵达。

那么，回到那个让我皱眉的瞬间。为什么我能下意识地洞穿这层“可行性幻卷”，看到朋友那200行代码背后的脆弱？为什么同事们会开玩笑说，看见我的脸就能发现问题？

答案，或许就藏在我脑中那张“隐形的清单”里。

这张清单，并非写在纸上，也不是什么刻板的流程手册。它更像是一种思维的肌肉记忆，是在二十多年的职业生涯里，被无数个成功的喜悦和失败的教训反复捶打、淬炼而成的一种结构化思考框架。每当面对一个新点子、一个新需求，这张清单就会在我的脑海中自动展开，用一系列“元问题”来审视它，像CT扫描一样，层层剖析，直至核心。

有趣的是，当我后来尝试将这种直觉性的思考模式总结出来，并试图将其传递给AI时，我发现这并非一蹴而就。我不能直接告诉AI“要像强哥一样思考”，我必须先将我的“直觉”进行解构和建模。这个过程，本身就是一次深刻的自我剖析，而驱动我这么做的，恰恰是一次代价不菲的失败尝试。

过去这些年，我积累了大量的文字产出，几十万字，全是我在不同时期的想法和观点。我天真地以为，只要把这些“料”都喂给AI，就能复刻出一个我的“数字孪生”。于是，我兴致勃勃地将这些文字做成了知识库，在不同的LLM上打造了多个“AI Bro Tsong”。

然而，结果却一塌糊涂。这些AI分身，就像一个学舌的鹦鹉，而非一个思考的伙伴。由于我的思想和认知在不同情景、不同年份下会演进甚至出现前后矛盾的观点，AI也忠实地继承了这一切，它的回答中充满了“屎味”——那些我自己早已抛弃或修正了的、过时的、甚至错误的观点，被它不加分辨地翻出来，造成了极大的混乱。这与我们团队打造开发智能体时遇到的问题如出一辙。

更让我失望的是，我试图让AI反向工程，从这几十万字的知识库里去自动提炼我的“思维框架”，效果更是差到可以忽略不计。AI擅长模仿语言的“风格”，却难以洞察思想的“结构”。

我尝试了所有能想到的技术手段去优化它。从最简单的文本分块（Chunking），到为数据打上精细的标签、分类等元数据，再到把知识组织成树状、图状甚至是QA对，我把能用的RAG十八般武艺都耍了一遍，但效果始终差强人意。AI依然无法在面对新问题时，真正像我一样去思考、去推理。

这些AI强哥的失败让我彻底明白了一个道理：专家之所以是专家，不在于他脑中存储了多少零散的知识点，而在于他拥有一个稳定、高效、能够处理复杂和矛盾信息的思维框架。试图通过简单地“喂数据”来复制专家，就像是把一图书馆的食谱塞给一个厨房小白，指望他能立刻成为米其林大厨一样，是缘木求鱼。

这，才是我下定决心不再依赖“投喂”，而是回过头来，对我自己的思考过程、甚至对“问题”的本质进行建模的真正初衷。

我首先回到了最本源的问题，为“什么是问题”本身进行建模，我称之为“认知主体与现实映射的动态框架”（参见《解构“问题”：认知主体与现实映射的动态框架》）。这让我明白，我们所谓的“问题”，其实是我们的认知与现实之间出现的偏差或不一致。

接着，我需要回答，专家是如何识别并弥合这种偏差的？于是我建立了第二个模型，为“如何像专家那样思考”进行建模，这是一个“动态认知-迭代框架”（参见《像专家一样思考：驾驭复杂世界的制胜之道》）。它描绘了专家如何通过观察、假设、验证、修正的循环来不断逼近问题的本质。

有了思维模型，还需要具体的技能。所以我又建立了第三个模型，为“写提示词需要什么样的技能”进行建模，我把它梳理成一个“提示词工程的核心技能金字塔”（参见《解锁AI潜能：提示词工程的核心技能金字塔》），从底层的本质思考到顶层的扩展创新，层层递进。

直到完成了这三个基础模型的构建，为“问题”、“思考”和“技能”都打下了地基之后，我才真正开始为提示词本身设计框架。 这个最终的产物，就是我那个复杂的CCPE（智核提示工程）框架（参见《智核提示工程开发指南》）。

现在回头看，我惊奇地发现，CCPE的诞生过程，与我审视一个新需求的思考路径，在底层逻辑上竟然惊人地一致。本质上，它们都是在为一个“系统”（无论它是传统的人肉流程，还是一个前沿的AI智能体）注入灵魂、划定边界、定义行为。唯一的区别是，过去我将这套思考应用于人与流程，而现在，我需要将它翻译成一种AI能理解的语言。

所以，当朋友的那个“知识提取流程”摆在我面前时，我脑中的提问就开始了，就像在需求阶段进行的一次无声的、快速的预演：

我首先会问这张清单的“核心层”问题，去探寻它的“灵魂”：这个QA知识库，最终是给谁用的？是给新主播做培训，快速了解某个领域的知识？还是给内容运营团队，用来寻找直播素材和灵感？不同的用户，决定了QA的颗粒度、风格、甚至是情感色彩。这个最根本的“为谁服务”的问题，他似乎还没来得及想。

接着，是“执行层”的问题，去明确它的“能力”：提炼主题的“标准”是什么？是基于词频，还是基于语义？QA的Json结构该如何设计，才能方便未来的检索和扩展？比如，除了“Q”和“A”，我们是否需要“标签”、“来源”、“创建时间”、“相关主题”这些字段？这些决定了知识能否真正被“管理”起来，而不是一堆无序的文本。我又想，这个需求未来会不会有变化？比如除了主播讲话，我们还要分析竞品视频、热门评论，这个流程能适应吗？这是在探寻它的成长性，避免把它做成一个一次性的、短命的工具。

然后，是“约束层”的问题，为它划定“红线”：在生成文字稿时，有没有什么法律或合规风险？比如涉及他人隐私、商业秘密的内容，应该如何处理？在提炼观点时，如何避免断章取义，甚至曲解主播的原意？效率和准确性发生冲突时，我们优先保哪个？这些是系统的“刹车”和“安全带”，没有它们，跑得越快，风险越高。

最后，才是“操作层”的问题，去定义具体的“流程”：如果语音识别的错误率很高怎么办？如果LLM提炼不出任何有意义的主题怎么办？如果生成的QA与知识库里现有的条目重复了，是覆盖、合并还是提醒？这些“异常处理”的细节，才是一个系统能否在现实世界中稳定运行的关键。

你看，这张“隐形清单”上的每一个问题，都在将一个模糊的想法，步步为营地打磨成一个清晰、健壮、有生命力的系统蓝图。它是在用未来的无数种可能性，来审视和拷问现在的这个设计。这，或许就是那张“会说话的脸”背后，真正的秘密。

文章写到这里，面对着朋友发来的信息，我依然思考着如何回复。

我最终没有直接甩出我脑中那张复杂的“清单”去“打击”他。我深知，他的那份热情、那种敢于动手尝试的行动力，正是这个时代最宝贵的特质。在AI浪潮席卷而来的今天，我们最不缺的，或许就是各种各样的新想法和新工具；最稀缺的，反而是愿意投身其中、亲手去实现、去试错的勇气。

那一刻，我忽然意识到，我们这些所谓的“老专家”的角色，正在发生着微妙而深刻的转变。过去，我们是知识和经验的壁垒，是最终的建设者和决策者。而现在，我们的价值，或许不再是守着那座壁垒，而是成为“幻觉”的破除者和“领航员”。

我们的任务，不再是居高临下地评判一个想法的“对”与“错”，而是把我们脑中那些“隐形的清单”、那些从失败中总结出的系统性思维，用一种更具启发性的方式分享出来。我们要做那个在旁边适时提问的人——“然后呢？”、“为谁做？”、“万一呢？”。我们要做那个手持探路灯的人，帮助那些充满热忱的探索者，看清脚下的路，避开前方的坑。

或许，最好的组合，就是一个像我朋友那样，拥有无限创造力和行动力的人，配上一个像我这样，总在旁边唠叨着各种可能性和风险的人。AI让前者的门槛变得前所未有的低，也恰恰因此，让后者的价值愈发凸显。

想到这里，我拿起手机，给朋友回了一句：“非常有意思的尝试！能跑起来已经很棒了。下一步，我们或许可以聊聊，看这个‘一人即战队’未来能成长为什么样子？”

我想，这，才是一个更有建设性的开始。

从正确的废话到可行性幻觉

CATALOG

FEATURED TAGS