[LG]《Disentangling the Factors of Convergence between Brains and Computer Vision Models》J Raugel, M Szafraniec, H V. Vo, C Couprie... [Meta AI] (2025)
AI视觉模型与人脑表征的相似性由多重因素驱动,最新研究通过系统训练DINOv3家族模型,独立操控模型规模、训练量和图像类型,揭示其对脑模型相似度的影响路径:
• 代表性对比:利用7T超高场fMRI(高空间分辨)与MEG(高时间分辨)同步记录人脑对同一图像的反应,多维度评估模型与脑表征的线性相似度(encoding score)、空间层级对应(spatial score)及时间动态对应(temporal score)。
• 训练阶段差异:模型训练初期即捕捉低级感官皮层特征,较高级别与前额叶皮层的表征则需大量训练数据逐步形成,体现与大脑视觉皮层发育的相似时间序列。
• 规模与数据类型的影响:更大规模模型与更多训练步骤均提升与脑表征的匹配度;人类视觉中心(human-centric)图像训练的数据集效果最佳,卫星和细胞图像虽促使低级视觉区域部分收敛,但整体脑相似度较低。
• 皮质属性关联:模型晚期学习的表现对应皮质发育扩展最大、厚度最大、髓鞘化程度最低、时间尺度最慢的脑区,揭示模型表征发展与大脑结构功能特征的深度耦合。
• 理论价值:该研究提供了一个实证框架,阐释了“先天”架构潜力与“后天”经验数据如何交互促进人工神经网络形成类脑视觉表征,推动认知科学关于本质主义与经验主义的辩论。
• 应用展望:DINOv3模型不仅局限于视觉通路,还能捕捉多模态高阶脑区活动,为构建类脑视觉认知计算模型与理解大脑视觉系统发育机制提供了新思路。
深度解读人与机器视觉表征的共轨机制,助力未来AI与神经科学交叉创新。
🔗 arxiv.org/abs/2508.18226
人工智能计算神经科学视觉认知自监督学习脑机接口