一场投资比赛,结果出乎所有人意料:阿里Qwen3 Max一个月赚了22.32%,DeepSeek v3.1赚了4.89%,而GPT-5却亏损超过62%,账户只剩3734美元。
去年,一家人工智能实验室发起Alpha Arena实验,让市场上最领先的六个大语言模型用真金白银管理资金。一个月后,这个结果打破了大模型在投资决策中的万能神话。
即使是最顶尖的模型,在真实市场中也存在明显局限性。大模型不是万能药,没法解决所有投资问题。
那么问题来了:大模型在金融领域到底能干什么?直接交给它们做决策,目前还太冒险。但在实现这个目标之前,它们有三类比较靠谱的应用场景。
第一类是基础运营任务,比如整理市场数据、生成标准化报表。这些工作重复性高、规则明确,大模型做起来得心应手。
第二类是辅助性任务,比如智能投研和投资顾问。不少券商已经开始用大模型处理海量非结构化数据,提升分析效率。但这仍然是辅助决策,最终拍板的还是人。
第三类是alpha信号生成,也就是为决策提供参考信号,而不是直接做决策。
那怎么才能让大模型在投资中更可靠呢?答案是工程化拆解和多因子融合。
投资过程需要工程化能力,就是把流程拆分成很多细致的步骤,这样才能控制输出质量。实验中三个模型的交易风格差异就很能说明问题。
DeepSeek依托量化基因,采用分散投资和长期持有策略,最终实现了稳健收益。Qwen则偏好高杠杆重仓单一标的,虽然赚得最多,但风险极高。GPT-5因为频繁交易和策略僵化,导致大幅亏损。
这些差异告诉我们,通过工程化拆分步骤,可以优化模型的策略,减少决策中的噪音。
另一个关键方法是结合传统智慧,融合三类因子:传统基本面因子、量价类因子和AI因子。这种融合能增强稳定性,拓宽投资的广度和深度。
举个例子,把AI的数据分析能力和人类的风险判断结合起来,可以有效降低模型幻觉风险。有券商通过RAG技术和知识库构建,把智能体的幻觉率降到了0.11%,这就大大提升了决策的可靠性。
过去七年多,私域积累的多样数据和细颗粒度市场数据,通过这三类低相关因子的结合,能实现比较稳定的输出效果。
大模型在投资领域的应用需要明确边界,合理划分场景。不是所有事情都能交给它们做,也不是完全不能用。
通过工程化拆解和传统智慧的结合,大模型才能发挥出真正的价值。它们不是取代人类的万能工具,而是需要和人类经验协同工作的辅助手段,最终做决定的,还得是人。

