Agent时代的安全产品应该长啥样?
2026-05-28, 济南
本文章全文为Homo Sapiens手写,DeepSeek V4进行审阅。
截至本文撰写的时间,整个网络安全行业乃至整个软件开发行业都处在LLM带来的剧烈震荡之中。我在内部的技术分享中提到,对网络安全而言,LLM登堂入室从概念变为可以大规模生产实践的时间节点正巧发生在2026年2月~4月,其中最核心的原因是基模能力达标。也就是这一批模型:
- Claude Opus 4.6
- GPT-5.4
- Gemini 3
- Qwen 3.6
- Minimax M2.7
- KIMI K2.6
- DeepSeek V4
- MiMo 2.5
扯远了。但总的来说,许多安全公司的产品仍然停留在旧时代。这种感觉就像是你获得了蒸汽机,然后你把蒸汽机装在轿子上用冲程抬轿子。
中台,产品,以及对产品形态迭代的恐惧
Agent时代之前,我们经常认为,安服人天是最脏最苦又不得不卖的活,而安全公司的出路永远是有一个能维持端到端迭代反馈的长青产品。这个产品的市场可能靠足够好用,也可能靠监管要求来维持。但不管怎么说,这个产品一定长得像一个toB的复杂罗嗦的中台,以及能够装载这个中台的工控大铁壳子。从官网截图到售前介绍,一般认为产品交互的发生就在这个大中台页面,哪怕产品可能后续要去和DevOps、工作流、上下游平台等各类东西去整合,大中台永远是核心。
但到了agent时代,这样的模式无疑是要被颠覆的。对agent来说,交互的自然程度是CLI>MCP(API call)>WebUI>GUI>TUI;而传统中台显然只考虑了WebUI,也许开发习惯比较好的厂商会有完备的API。但直到现在,好多安全厂商对AI应用的理解仍然停留在WebUI里面加入一个“报告解读机”。
软开领域飞速迭代的同时,安全领域似乎严重迟滞,变革没有发生,大概率要归结于安全研发在agentic领域知识和直觉的缺失,以及产品经理对产品形态被颠覆的恐惧。agentic直觉的缺失好解释,无非鼓励大家多去用,过个半年一年总有一批人能培养出来;但是产品就不一样了。
如果抛弃了大中台,产品在甲方体系里面岂不是变得极其可替代了吗?我们会丧失甲方人员对控制面板的操作粘性,甲方人员会丧失对产品存在的感知。
但甲方人员不再操作面板的这一天是不可避免的,agent时代来临后,迟早agent们会逐步替代人类去操作一切,从简单的报告解读,到源码修改,到手写QL查询,最后到完全取代人类做操作和汇报。如果要做局部的转型(妥协?),无非给API套一层CLI,这样就可以为甲方家里的agent提供优秀的互操作性。事实上,云厂商在这方面的操作成本极低,因为他们本来就有一个CLI工具。但这种本来在AI时代连1天时间烧1亿token都不到的改造成本,在许多安全厂商那儿迭代得很慢。至于为什么?我不知道。但如果一整个公司都没有任何一个影响力足够的人培养出来这种agentic taste,我觉得公司大概率在这轮洗牌是要完蛋的(除非公司完全不依赖技术,纯靠巨大隐式能量维生)。
在模型能力的连续谱中寻找确定性
在过去几年间我们不难形成一个共识,就是作为领域和应用厂商,我们在基础模型上的投入几乎是没有意义的。你纵有10卡100卡集群,但当代模型训练的流程已经远远超出一般毕业生或者说上一个时代机器学习从业者的理解,预训练、训练和后训练的黑魔法在大厂/模型厂手上并不会公布,自己跑的一些微调很可能远不如三个月后大厂发布新模型的表现。加之基模推理技术飞速演进,MTP、KVCache on SSD,以及未来可能发生的各种局部动态quantize黑魔法,每一轮都有可能带来bench和速度的碾压……作为安全厂商有什么能力去招架?除非接下来再发布一些颠覆“下一个字预测器”架构的模型,否则token就要像水龙头里的水一样看待,而安全厂商可能是用水的饭店,但你不会想做大自然的搬运工的,做不起。
好在,不管模型能力如何日新月异地迭代,我们总是有一些确定性的东西要考虑,这种确定性就是安全厂商在天网升起前的优势。
可验证性
Agent在企业级应用里面最头疼的问题就是可验证性,最简单的例子就在于,如果你使唤豆包去给你报一下北大,豆包告诉你已经录取了凭豆包编号报到——你能信她吗?这也是编程率先被AI冲击的原因,编译器是严格的,AI写得不好的话很难过编译,而写通过了还可以靠一系列的测试用例去验证约束。放到安全领域,可验证性率先带来的冲击就是AI DFIR和AI驱动CTF。因为CTF可验证性极强,flag就在那;而取证也可以视作是对设备上一个指定位置的可达性分析。从这两个路径去延展,那率先被干掉一大半的行业是:
- 电子数据取证
- 静态代码分析
原理不做赘述。如果还没被干掉,那大概是因为沟槽的取证厂商的终端交互性不如Sleuth Kit,抑或是因为代码仓库结构很大而缺少结构性理解工具(这一点会在2026年内解决),当然最有可能还是因为公司没token用。
所以可验证性的问题仍然不会变。病毒扔到沙箱踩绊线显然是可验证的,payload打下去到底拿没拿到shell显然是可验证的,在可验证的领域能做出独到的验证assert就是agent时代安全厂商的优势,如果能做到的话。
FDE与领域特定知识
总有一些领域特定的知识是AI不擅长或者默认不激活的,这就导致通用agent在通用厂商那儿无法发挥充分的效果,这也是为什么各乙方公司要搞FDE。如果LLM的激活效果总是那么好,那甲方自己一句话,LM自己去理解全部的项目背景,自己去写完整个儿工程上线了,还要乙方干什么?
这主要体现在skill上。Skill并不是越多越好,最理想的情况是,面向特定的场景,在最宝贵的上下文窗口里,激活最有效的知识。刚好我们安全厂商往往就有这些知识,比如审Java代码时哪些是标志性source,哪些filter有哪些默认bypass,哪些sink可以出其不意去用;比如打渗透外网要做信息收集,除了常规的扫描器以外是不是还有一些特殊的方面可以漏,诸如此类。
另一类宝贵的领域特定知识就是数据订阅。这一点我想网络空间测绘厂商和做安全情报聚合的厂商深有感触,无需多言。哦对了,杀毒软件规则更新也算一种数据订阅。
复杂度超线性增长的问题的压缩
还记得上文提到的“代码仓库结构很大而缺少结构性理解工具”吗?LLM的本质仍然是用一个很长的计算循环去触达可计算问题,而很多可计算问题的复杂度在通用LLM的算法下,复杂度可能是超越线性的。就像刚才说的代码库,如果你不做index,则agent需要iterate-rg-iterate-rg-……,他没有眼睛看所有的代码,每一轮iterate能化进参数里的当前工作知识又很有限。但如果做了index或者做语义化的搜索,则agent可以靠检索相似结构(比如相似的x-in-y函数pattern调用)分析,在少了大几十K上百K的窗口里完成任务。要知道,在2026年,一轮黄金会话窗口还在256K内,到了超过512K或多或少就会开始遗忘和幻觉,而到了1M你的显存很可能已经爆了。当然,除非有人能在保持注意力的前提下,再在现在DeepSeek V4的工作上实现10x甚至100x的上下文计算开销,这很难。
所以如果你有针对特定安全问题的超长内容压缩能力,无疑是牛逼的。这个层面也能看出牛逼的扫描器和纯粹合规作用的版本号扫描器的区别,诸如此类。
被颠覆的人机交互
所以,可以假设你的产品原先是一条区,有很丑的头(WebUI)。现在区化茧了,头身足全没了,里边儿全是汁,他要怎么变成蝴蝶。
CLI优先
本来CLI优先应该是很多系统的要求,但中国整个互联网起飞都在GUI普及之后,很少有厂商还会去重视给一个应用产品配好用的CLI(点名表扬:mattermost、tailscale)。现在agent显然用CLI用得很开心,这块儿的开发成本也非常低,但做无妨。
数据导向
数据导向其实就是上面说的重视领域特定知识。重新审视这个产品有哪些先验知识可以用来激发agent,而产出物里面又有哪些可以给到agent发挥更大的作用。给人看的统计学变轻的时候,注意力要转移到如何调运号数据提供给LM作为优质的分析原料。清洗、降噪、优质的数据面聚合导出,诸如此类。
确定性和非确定性的分界
这对应的是上面说的可验证性。思考哪些地方要托付给AI,而哪些地方上规则会更好。这很复杂,不展开。但接下来我们思考两者如何好好耦合。
从确定性进入非确定性的介质是工具。比如你有1亿条告警,现在已知一个IP感染,要抽真正的入侵痕迹。那么你就给AI提供工具,AI能够从确定性的告警中抽取非确定的分析报告,再给人类核验。
从非确定性进入确定性的介质是校验规则(当然,也可以是工具)。比如你让AI生成一个报告他可能凭经验给你做字段,但如果你的规范要时间IP定级漏洞类型修复建议一个不落,那你就需要规定好schema,让agent通过依此schema的工具去把报告摇出来;抑或是在另一些场景,生成好结构数据之后用schema来校验,并且把语法错误的点返回给AI(最典型的,编译器)。
人类使用的观察窗
回到前述的,“平台消失之后”的问题。根据目前来看,人类始终还是要寻求没有LM情况下的“退出方案”的,这就意味着传统WebUI还能活很久。但对产品形态的角度真的不能再从一个核心包装成Web上的一二三四菜单去思考了。头以后长什么样可能慢慢变得不再重要,但人类什么时候还需要介入、怎么介入、介入之后要看什么,这也是需要重新思考的。