当AI遇见数学：多模态大模型为何在乘法面前集体失语？

2026-04-20 · 0 次浏览 ·来源: AI导航站

最新研究揭示，尽管多模态大语言模型能完美识别文本、图像和音频中的数字内容，但在执行精确多位数乘法运算时却频繁出错。研究者构建了一个受控的多模态乘法基准测试，通过系统性地改变数字长度、稀疏度、表示形式和模态（文字、渲染图像、音频），发现模型的准确率随'算术负载'C（总非零位数与总位数的乘积）增长而急剧下降。更令人惊讶的是，这种计算能力的缺失主要源于内在的推理机制缺陷，而非感知层面的问题。研究进一步指出，模型倾向于采用分解策略进行乘法运算，但其内部路由机制已高度优化，微调特定启发式方法反而会降低整体准确性。这一发现对当前AI在数学推理领域的能力评估提出了根本性质疑。

在人工智能的星辰大海中，多模态大语言模型（Multimodal LLMs）被视为通向通用人工智能的关键一步。它们不仅能理解文字，还能解读图像、解析音频，仿佛拥有了一个融合多种感官的‘认知中枢’。然而，当我们将目光从诗歌、绘画和音乐转向最基础的算术运算时，一个惊人的悖论浮现出来：这些看似无所不能的AI巨头，却在一位数乘法这个看似简单的任务上屡屡碰壁。

一场精心设计的‘数学陷阱’

为揭开这个谜团，研究人员精心设计了一套前所未有的实验框架。他们不再满足于单一的文本输入，而是将同一个复杂的乘法问题，以四种截然不同的形式呈现给模型：阿拉伯数字串、中文数字词汇、打印体的数字图像，甚至是朗读的数字音频。这种设计旨在彻底排除任何单一模态的干扰，迫使模型仅凭其核心的‘数学引擎’来解决问题。

结果令人震惊。模型在这些不同模态下的表现差异微乎其微。这意味着，无论数字是写在纸上还是用声音说出，模型都能‘看到’或‘听到’它们，并且理解其语义。然而，一旦进入真正的计算环节，模型的准确率便如悬崖般骤降。研究发现，一个名为‘算术负载’（Arithmetic Load, C）的指标，即总位数与非零位数的乘积，成为了预测模型性能的关键标尺。随着C值的增大，模型正确计算出结果的概率趋近于零。这清晰地表明，模型在处理复杂计算时的能力存在一个清晰的边界。

拆解‘黑箱’：是感知还是计算之困？

为进一步定位问题的根源，研究团队进行了关键的‘感知-计算’解耦实验。他们在不同模态下，设置了一个‘感知匹配’的任务——让模型判断两个数字是否相等。结果显示，模型在这一任务上的准确率高达99%以上，甚至超越了人类水平。这说明，模型在不同模态间进行信息对齐和语义理解的能力是无懈可击的。

那么，问题就出在计算本身。当模型被要求执行乘法运算时，其内部究竟发生了什么？通过引入一种名为‘强制完成损失探针’的技术，研究者得以窥探模型的推理过程。他们发现，模型并非没有策略，而是有明确的偏好。在文本和视觉两种模态下，模型普遍倾向于使用‘分配律分解法’，即将一个复杂乘法拆解为多个简单乘法的累加。例如，计算123×456时，模型可能会先计算100×456、20×456和3×456，再将结果相加。这种策略在人类看来是理所当然的，但在AI中却并非默认行为。

一个更有趣的发现是，当研究者尝试用LoRA（Low-Rank Adaptation）技术微调模型，使其专门学习某种特定的启发式方法（如列竖式乘法）时，模型的准确率不升反降。这表明，模型内部已经有一个经过高度优化的‘路由机制’，它自动选择最有效的策略来处理不同的问题。人为干预这个机制，反而破坏了它的平衡。

超越‘幻觉’：重新定义AI的数学能力

这项研究的重要性，远不止于揭示了某个具体模型在乘法上的弱点。它从根本上挑战了当前评估AI数学能力的范式。长期以来，我们习惯于用准确率来衡量模型的表现。但这份报告提出了一个更深刻的观点：一个模型可能在一个问题上给出完全错误的答案，但在其他相关问题上表现良好，这说明它的错误是系统性的，而非偶然的‘幻觉’。

对于行业而言，这一发现意味着什么？首先，它警示我们在评估多模态AI时，必须建立更加系统和全面的测试基准，尤其是那些能够跨模态对比的基准。其次，它也指出了未来研究的方向：不是简单地增加模型参数规模，而是需要深入理解并改进其内在的计算逻辑。如何赋予模型更强的符号推理能力、如何设计更有效的训练目标，使其不仅能‘看懂’数字，更能‘算得准’，将是通往真正智能AI道路上必须跨越的鸿沟。

前路漫漫：迈向可信赖的数学推理

乘法只是冰山一角。当我们把目光投向更高级的数学领域，如代数、几何乃至更复杂的逻辑推理时，我们面临的挑战只会更加严峻。这份报告的价值在于，它为整个社区提供了一个清晰的诊断工具——‘算术负载’C，以及一套系统的分析框架。

未来的AI系统，无论是用于科学研究、金融建模还是工程设计，都必须具备可靠的数学推理能力。这不仅关乎技术的先进性，更关乎其应用的可靠性和安全性。因此，我们必须正视并解决当前模型在计算层面的根本性缺陷。或许，通往可信赖的AI之路，不在于构建更大的‘大脑’，而在于为其安装一个更小、更精密、且能进行可靠逻辑演算的‘计算器’。