新一代人工智能的发展,深刻展现了大数据与小数据、智能之间耐人寻味的关系,并以大数据与小数据关系的形式凸显了进一步深化对大数据认识的必要性。
“有多少数据就有多少智能”
大数据的发展及其对人工智能的应用,极大地凸显了人工智能与人类智能之间截然不同的机制、方式、属性和特征,展现了数据与智能之间耐人寻味的关系。
在数据的驱动下,“有多少数据就有多少智能”无法更直白地展示“数据智能”的数据积累优势。新一代人工智能的发展充分展示了大数据的力量。无论是AlphaGo系列还是AlphaFold系列,以及智能翻译,都为大数据的应用和发展开辟了巨大的前景。
因为数据标注需要大量的人力,“有多少人工就有多少智能”的说法,说明了人工智能与人类智能的根本区别。数据标注的非智能性凸显了人工智能与人类智能的不同智能及其关系:基于大数据的智能和只能使用小数据的智能。从目前的发展来看,似乎无论依赖多少数据,人工智能发展到什么程度,数据智能在更为根本的通用智能方面,都远不如只能使用小数据的人类智能。人类智能只有利用小数据的能力,但却具有目前人工智能利用大数据无法达到的普适性。人类智能依赖小数据,可以解决人工智能靠大数据解决不了的问题。而基于大数据的小数据方法使用研究,则在更深层次上清晰地指向了大数据与小数据的关系。专家认为,大数据最常见的目的是生成小数据。基于大数据的小数据应用隐藏了它们之间关系的秘密。
在目前的研究中,基于大数据的小数据应用还涉及到大数据与“智慧数据”的关系。数据智能是大数据和小数据关系中的重要一环。如何理解大数据和小数据及其关系,不仅涉及到人工智能的发展,也涉及到数据理解的深化,尤其是大数据,从而涉及到哲学层面更重要的基础问题。用更少的数据获得更好的智能结果是人工智能领域的一个重要研究方向。在大数据和人工智能发展越来越快、越来越多的关键时期,在科学与哲学融合的层面厘清大数据与小数据的关系,不仅意义重大,而且是在深化对大数据认识的基础上,进一步探索数据与人工智能关系的恰当时机。
大数据是趋向整全的数据
在技术层面,一般认为大数据是传统数据库无法处理的数据集。但在技术范围之外,可以看到传统方法处理的数据也可以具有大数据的性质。例如,默里的海图数据甚至主要是人工处理的,但它构成了大数据。19世纪,美国海军军官默里在一次车祸中受伤,前往海军海图和仪器厂工作。当时远洋航行中使用的旧航海图主要是凭经验绘制的,不仅弯了很多弯,还犯了很多错误。他决心改变这种状况,在被视为垃圾的现有地图、仪器和航海日志的基础上,利用特定日期和地点的风、水和天气记录数据,然后让所有海军舰艇用标准表格完成数据,并对数据进行人工处理,将其整合成张全新的海图。由于数据更加完整,路线更加合理,船只的航程大大减少。可以看出,大数据和小数据的区别甚至不在于它能否被传统的数据库技术处理。莫里的海图数据不是传统数据库处理的,但只要是关于航海的完整数据,就不是小数据而是具有大数据的性质。根本区别在于大数据是完整的数据。虽然没有本体论意义上的完整数据,但基于人类的认知目的和实践需求,大数据可以视为在使用需求方面趋于整合的数据。由于信息编码还没有发展到数字化阶段,默里的海图并不具备数字时代大数据的成熟形态,而仅仅在海图的静态把握方面具有大数据的性质。
正因如此,无论是在技术还是其他领域,大数据的“大”不仅仅是数据规模。从小数据到大数据的发展,其实就是“从一部分到全部”。从部分到全部,即从样本数据到全部数据。大数据与小数据完全不同,不仅仅是因为规模大,还因为大数据是全部数据,小数据是样本数据。只要是样本数据,传统的数据库处理是没有问题的,哪怕是一个大国的人口普查数据。因为样本数据有特定的采样前提,所以采样数据有特定的结构。与传统数据库相比,所有结构化数据,无论大小,都可以由传统数据库处理。这不仅说明大数据和小数据的根本区别不在于数据的大小,而在于是否有样本结构,样本数据和所有数据的根本区别在于数据规模完整程度。这意味着在大数据和小数据之间的关系中存在更深层次的数据完整性问题。由于样本结构的不同,作为样本数据,不同的样本号意味着不同程度的完整性。当数据的完整性足以满足认知目的和实际需求时,它就变成了大数据。数据越完整,大数据的本质就越多,或者说大数据的本质就越明显;数据的完整性越不明显,越具有小数据的性质。区分大数据和小数据的基本依据是数据的完整性。(社会科学报在媒体《思想工作坊》制作。
全文见《社会科学学报》及官网)