现在的AI不仅能看懂文字,还能“看懂”图片、听懂声音、理解视频。给它一张X光片,它能分析病灶;给它一段监控视频,它能描述发生了什么;甚至你对着手机说一句“帮我找一下上次在动物园拍的那张老虎照片”,它也能从几千张图里翻出来。这种能力叫多模态,是AI从“读懂字”到“看懂世界”的关键一步。多模态到底是什么?本期

现在的AI不仅能看懂文字,还能“看懂”图片、听懂声音、理解视频。给它一张X光片,它能分析病灶;给它一段监控视频,它能描述发生了什么;甚至你对着手机说一句“帮我找一下上次在动物园拍的那张老虎照片”,它也能从几千张图里翻出来。这种能力叫多模态,是AI从“读懂字”到“看懂世界”的关键一步。多模态到底是什么?本期
