当AI重译历史：大模型如何解码20世纪初斯洛文尼亚的民族叙事

2026-03-26 · 0 次浏览 ·来源: AI导航站

本研究通过融合主题建模、基于大型语言模型（LLM）的情感分析与实体图谱可视化，对斯洛文尼亚历史报纸《Slovenec》与《Slovenski narod》进行系统性文本挖掘，揭示了两种不同意识形态立场下民族认同、政治取向与国家归属的话语建构模式。研究不仅验证了特定多语言模型在OCR退化历史文本中的有效性，更展示了计算人文方法在复杂社会议题分析中的独特价值。

在数字人文研究的浪潮中，历史报刊正从沉睡的档案转化为动态的叙事场域。过去，研究者依赖逐字阅读和手工编码来解读早期印刷品中的集体意识形成过程；如今，人工智能技术——尤其是大型语言模型的崛起——正在重塑这一探索路径。一项针对19世纪末至20世纪初斯洛文尼亚两份重要报纸的研究，为我们提供了一个鲜活的案例：如何通过现代AI工具，重新激活尘封百年的公共话语，并揭示其中潜藏的身份政治与意识形态张力。

该研究聚焦于斯洛文尼亚语报纸《Slovenec》与《Slovenski narod》，这两份刊物分别代表了保守天主教与自由进步的政治光谱。作者团队并未止步于传统的内容分析法，而是构建了一套混合计算与批判性解读的框架。首先，他们运用BERTopic模型对数百万词的历史文本进行主题聚类，成功识别出如‘宗教仪式’‘教育改革’‘地方自治’等核心议题，同时清晰呈现了两种媒体议程设置的差异。例如，《Slovenec》频繁关联‘教会权威’与‘传统价值’，而《Slovenski narod》则更多讨论‘工业发展’与‘公民权利’。

超越情感判断：大模型在噪声数据中的精准调校

更引人注目的是其对大型语言模型的应用。由于历史文献经过光学字符识别（OCR），常带有拼写错误与格式混乱，这对依赖精确语义理解的现代NLP系统构成挑战。研究团队评估了四种指令微调的大语言模型，最终选定了一款专为斯洛文尼亚语优化的GaMS3-12B-Instruct模型用于大规模情感分析。尽管该模型在整体准确率上表现出色，但其对中性情感的识别能力显著优于积极或消极情绪分类，反映出当前多语言大模型在处理边缘化语种历史文本时仍存在结构性偏差。

这一发现具有深远意义。它不仅是对技术局限性的坦诚记录，也提醒我们：任何自动化分析都必须置于语境中审视。当AI将一段关于‘乡村学校扩建’的报道标记为‘积极’，而另一段描述‘工人罢工受阻’却归为‘中性’时，我们需要追问：这种分类是否忽略了当时社会的权力结构与话语霸权？这正是研究团队后续所强调的——算法不应替代批判性思维，而应作为激发深层对话的工具。

从词语到网络：身份与空间的交织图谱

研究进一步构建了命名实体识别（NER）图谱，追踪关键群体（如农民、神职人员、知识分子）与地理名词之间的共现关系。通过网络分析，研究人员发现某些身份（如‘天主教徒’）往往与固定地点（教堂、教区）紧密绑定，体现出强烈的地域依附性；而另一些群体（如‘学生’或‘记者’）则呈现流动特征，连接多个城市节点。这种空间化表征方式，使抽象的社会结构变得可视可感。

尤为值得注意的是，研究采用混合方法整合定量网络与质性解读。例如，一个看似中立的‘农业合作社’节点，在细读其上下文后可能暴露出殖民经济下的剥削隐喻；而一份被算法判为‘负面’的政论文章，经人工解读或许能揭示其对民主进程的真诚呼吁。这种‘机器初筛+人类深描’的双层策略，正是应对历史文本复杂性的智慧之举。

当前AI驱动的文本分析正经历从‘描述现象’向‘解释机制’的转型。本案例表明，要真正理解过去社会的身份建构逻辑，必须打破纯技术性思维，将算法视为揭示潜在结构的探针，而非终极答案。未来的方向或将包括开发更具文化敏感性的标注体系、引入跨时代语义演变模型，甚至结合考古证据与口述史资料，形成多维度的历史认知拼图。

归根结底，这项研究超越了单纯的技术演示。它昭示着：当古老报纸上的油墨字符被转化为可计算的向量，当沉默百年的声音通过机器学习得以‘听见’，我们不仅是在还原历史，更是在重构一种新的知识生产方式——在其中，人类学者的直觉与AI系统的规模优势彼此滋养，共同逼近那些曾被遮蔽的社会真相。