马斯克声称:训练人工智能已经耗尽了所有人类生成的数据,现在的训练依赖于容易产生幻觉的合成数据。他认为,与真实人类生成的数据相比,合成数据容易产生幻觉,本质上是糟粕。 合成数据是通过计算机生成的虚拟数据,它们能够模拟现实世界的数据分布和特性,但并不直接来源于现实。合成数据可以是生成的图像、文本、语音或表格,由统计模型,仿真模拟,程序等方法产生。合成数据可以弥补真实数据不足的问题,如极端天气场景、少数族裔的面部图像等。然而,大量使用合成数据可能会导致AI模型产生不可靠、有偏见和潜在危险的输出,因为它们缺乏真实世界数据的细微差别和复杂性。AI行业对合成数据的依赖可能会损害AI驱动应用程序的可靠性和可信度,从自动驾驶汽车到医疗诊断都是如此。马斯克呼吁采取更多的监管和监督,以确保这些强大的AI系统负责任发展。 技术力量认为,马斯克的说法一半正确,一半错误。大量依赖合成数据确实会影响AI最终的可靠性,但训练人工智能不会轻易耗尽所有人类生成的数据,因为人类生成的数据也是动态增长的。人类每天都会产生大量新数据,包括社交媒体帖子、文章、视频、科学研究、医疗记录等。数据的增长速度远超人工智能的消耗速度。比如,光是头条,每天就有几百万的文字内容产生,更不用说其它平台上传的视频内容了。其次,训练人工智能并不需要所有领域的的全部数据,大多数人工智能模型是针对特定任务或领域训练的,因此,增加数据的收益是递减的。当达到一定数量后,更多的数据对模型性能的提升有限。数据的质量远比数量更重要,原始数据中存在大量噪声、重复和无用信息,真正可用的数据可能只有一部分。因此,数据质量和有效标注比数据总量更关键。此外,新技术已经出现,比如迁移学习和少样本学习,它们可以在较少数据的情况下实现人工智能的高效训练,减少对海量数据的依赖。 信息来源:-musk-ai-training-data-running-out-human-synthetic-slop
马斯克声称:训练人工智能已经耗尽了所有人类生成的数据,现在的训练依赖于容易产生幻
翰池看科技
2025-01-11 10:40:39
0
阅读:0