以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

市场营销免费论文 市场营销论文结语

  

  机器心脏报告。   

  

  机器之心编辑部   

  

  一个参数画大象。   

  

  据说冯诺依曼曾经参加过一个会议,一个物理学研究者报告了一个研究进展,用了一个非常复杂的模型,试图论证实验数据点都落在同一条曲线上,符合模型预期。所以冯   

  

  诺依曼说,不如说这些点都在同一个平面上。最后,冯诺依曼留下了一句名言:“用四个参数我可以拟合一个。   

  

  大象,五个我可以让他扭动他的鼻子。」   

  

  这是冯诺依曼的经典故事,“四个参数画大象,五个参数摇鼻子”。   

  

  2010年,德国马克斯普朗克分子细胞生物学与遗传学研究所和欧洲分子生物学实验室的三位研究人员发表论文,实现了绘制大象的四个参数,如下所示:   

  

     

  

  _来源:https://publications.mpi-cbg.de/Mayer_2010_4314.pdf_   

  

  最近,一篇老论文《实数、数据科学与混沌:如何》于2019年4月发表。   

  

  “任何单一参数的数据集”,这在Twitter上又引来了一波讨论。作者洛朗布埃。   

  

  现在是微软的高级机器学习科学家,他谈论如何用一个参数拟合任何数据集。   

  

     

  

  地址:https://arxiv.org/pdf/1904.12320.pdf.   

  

  作者迈尔斯,普林斯顿大学博士生,DeepMind研究科学家实习生。   

  

  他说,Granmer,“这篇论文提供了一个单参数的标量函数,这个函数是可微的、连续的!」   

  

     

  

  对于这项研究,有人认为:“从技术上讲,这篇论文中有一些“骗子”,因为论文使用的是任意精度的浮点数。因为浮点数需要很少的位,所以本文可能是压缩表示的一个很好的候选。   

  

  但绝对不是“单一”参数。我同意这篇论文是一个聪明的方法,将数据集编码成数字,然后解码回来重建单点。」   

  

     

  

  其他人对本研究中拟合参数的标准误差感兴趣。如果是单参数,误差会有多大?   

  

     

  

  还有人说:“一个参数的连续可微函数可以生成无限的VC维。这篇论文似乎是这个技能的一个版本。」   

  

     

  

  论文内容介绍   

  

  介绍了如何用不同的模式(时间序列、图像、声音等)来逼近任意数据集。)通过标量函数(连续、可微等。)和单个实值参数。基于混沌理论的基本概念,研究人员使用教学方法来演示如何调整该实值参数,以实现所有数据样本的任意精度拟合。   

  

  现实世界中有各种形状和大小的数据,其模式从传统的结构化数据库模式到非结构化媒体源,如视频源和音频记录。然而,任何数据集最终都可以被视为值x的列表。   

  

  =[x_0,x , x _ n]   

,该列表描述了数据内容而忽略了数据底层模态。并且该论文旨在证明任何数据集 X

  

的所有样本都可以通过一个简单的微分方程重现:

  

  

其中 α R 是要从数据中学习的实值参数,x [0, , n] 取整数值。(τ N

  

是一个常数,可有效控制所需的准确率)。按照「拟合大象」的传统,该研究首先展示了如何通过选择合适的α值生成不同的动物形状,如图 1 所示。

  

  

在演示完 f_α 可以生成任何类型的上述涂鸦绘图之后,该论文继续使用文字「Hello world」进行了展示,以进一步说明该方法的功能。下图 2

  

展示了如何使用精心选择的 α 值来生成复杂的高维声学信号,编码实际表达的是「Hello world」。

  

  

在图像这种数据模态上,随着专用硬件和新型神经网络架构的不断涌现,人们普遍认为可用的大规模标记训练数据已成为促使计算机视觉「成熟」的最重要因素之一。

  

在这种情况下,CIFAR-10 数据集被认为是衡量新学习算法性能的有力标准。该研究表明:如下图 3 所示,总是能够找到一个α值,使得 f_α能够构建出反映

  

CIFAR-10 类别的人工图像。

  

  

基于上述几个模态的例子,该论文得出结论:一个具有简单且可微公式的模型

  

f_α能够产生任何类型的语义相关散点图、音频或视觉数据(文本也类似),而只需要单个实值参数。这一点就引起了研究者们的质疑。

  

此外,该论文中阐述了该方法无法实现泛化的事实。这是因为该方法中所有信息都是被直接编码的,没有任何的压缩或「学习」。从数学的角度看,实数有无限多个,因此不应与编程语言实现的有限精度的数据类型混淆。基于此,f_α不可能实现真正的泛化,下图

  

9 就是一个例子。

  

  

对此,你有什么看法呢?