< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

金融AI武道大会开赛!四道业务真题,出题人:猜不到最优解

Taste,决定天花板。

量子位 | 公众号 QbitAI

好久没看到这么神清气爽的AI比赛了。

AFAC2026金融智能创新大赛

,总算不是单纯刷分的「乏味Benchmark」。四道赛题,全部从真实金融场景中生长出来:

看盘面:识别机构交易行为与资金流向;

啃文档:将复杂保险PDF还原为结构化Markdown;

做实验:在稀疏反馈下完成自动化实验设计;

读长文:控制Token成本,对金融长文本精准问答。

是的,专挑金融这个最「地狱级」的训练场。

很多人可能不知道,模型发展到今天,金融垂直任务依然没能被啃下来。

以保险文档还原Markdown为例,一旦碰到大图片、大文档场景,模型在相关Benchmark上的平均分甚至会掉到0.1以下,即便是

这样的前沿多模态模型都够呛。

为何垂直场景落地如此困难?

归根结底,这是Agent层的工程问题。不是光靠参数Scaling就能吞掉的。

这正是AFAC2026大赛的核心宣言:

全员回归基础研究,一起探索模型如何在真实约束下,交付产业价值。

说实话,这可能是今年金融AI领域,最值得关注的一场比赛。

2026金融AI武道大会

赛题一:市场参与者交易行为识别与资金流向分析

普通投资者面对盘面,最无力的地方在于:你永远不知道屏幕另一头那笔大单到底想干嘛。

股票突然拉升,大单涌现,盘口挂出巨量买单。你捕捉到K线异动,准备追入风口。

但对面的真实目的,可能只是骗你进来接盘……

如何更好地识别交易行为,一直是市场最天然的刚需。

但难点也恰恰在此。在这片黑暗森林里,买卖双方都在想尽一切办法揣测对方的意图。

结果就是持续的对抗与升级:当某些资金行为被识别出来,真正使用这些手法的人就会反过来隐藏自己,甚至利用市场对这些信号的认知进行反向博弈。

蚂蚁集团财富保险事业群投研投顾技术负责人、AFAC大赛出题家纪韩

看来,这正是这道赛题最有趣的地方:资金识别这件事,从来不只是数学题。

从交易角度看,挂单、撤单、拆单,本质上是你与对手盘之间的一种沟通。这里面夹杂着大量意图,包括误导和制造假象。

最强的选手,赢在对社会、商业乃至人性的理解。

如今大模型的出现,为这场游戏提供了又一把新武器。它能从高频数值数据中,发现人类尚未总结出的隐含模式。

谁能优先利用并封装好这项能力,谁就能在股市里赢得真金白银。

但光是调用模型还远远不够,选手必须依托harness框架来设计机制。

L2行情数据的数据量极其庞大,如果硬塞进模型,哪怕是支持1M上下文的窗口也会直接爆掉,导致注意力机制失效。

因此,参赛者需要提前写好规则或现成代码,或者让模型调用工具,先把数据处理到可观察、可理解、可判断的状态。

在harness的实现层面,隐含了非常复杂的工程要求。

场景之外,这个赛题的评测规则也挺有意思。

作为一个瞄准产业落地的比赛,

这个赛题并没有强调「成本优化」

很反直觉,对吧?毕竟一提到落地,大部分人最关心的工程指标就是成本。

对此,出题家纪韩的解释是:

如果策略真的有效,其带来的潜在收益增强,可能让成本显得微不足道。

这是一场博弈。当你在纠结成本时,你的对手在倾尽全力调用最好的模型。

每个场景都有自己的价值函数,「成本」并非永恒的关键变量。

看盘这件事,你的首要目的,是赢过对手。

赛题二:复杂金融文档还原挑战

参赛选手需要设计并实现一个端到端的文档解析系统,将一张金融文档图片,完整、准确、有结构地转成Markdown。

注意这里有三个关键词:

作者 gjqs