前几天有朋友问我有没有完全可靠的芯片。我遗憾地告诉他,没有,至少我没见过他。他很不解,说天上飞的飞机,地上跑的汽车,不都是芯片控制的。如果芯片不可靠,事故就不会天天发生,那为什么我没听说飞机天天掉?
他提出的问题很有代表性,我觉得有必要做一个科普研究。首先我们要讲这个概率,它反映的是随机事件的概率,这里就不展开了。我们普遍认为,如果很多日常事件发生的概率小于5%,它们很难发生在自己身上。
为了形象解释,我就以彩票为例。彩票被称为贫困税。为什么呢?因为穷人觉得自己这辈子要翻身,最好的翻身机会就是买彩票,尤其是奖金极高的彩票,每张纸币2元钱就可以大大小小。但事实的真相是,现实中我们买彩票根本拿不到大奖,只能贡献微薄的收入。双色球的中奖概率是1772万分之一,彩票是2142万分之一,美国的巨彩是1.75亿分之一。
我们在工作中经常会谈到六西格玛,也就是发生的概率是百万分之3.4。如果产品设计达到这个水平,是相当牛逼的,现实中也不会有问题。所以,真正的有钱人不买彩票,他们做某些事情,运气不够。
我们在工作中经常使用芯片,主要是工业级的。恩智浦、漫威、博通、TI、ST等品牌全球排名靠前,大量使用会出现问题。比如我们用的是某个芯片,每年的消耗量差不多有几百万。一年之后,总会有几十个客户投诉。我们得到什么所谓的故障机器,在实验室重现故障,投入20多人。经过连续三个月不间断的恶劣环境测试,我们终于发现了同样的故障。我不知道是什么原因会导致这个故障,但它确实发生了。问原厂,原厂解释不了。最后,在这种情况下,公司投入了巨大的资源,最终形成了一个看似简单的设计标准。所以你会看到很多牛逼的科技公司有大量昂贵先进的仪器设备,有大量牛逼的R&D人才。其实他们的很多工作就是如何以很小的概率解决和预防这些问题。就像奥运会一样,大家都是武林高手,谁夺冠就看谁失误少。
有些朋友可能会问,如何选择可靠性更高的芯片?一般我们会根据具体的应用需求选择使用量非常大的芯片。因为芯片数量多,应用范围广,使用时间长,一是工艺非常成熟,二是稳定性得到充分验证。第三,虽然会有问题,但问题和解决办法都有,所以我不怕。
同时在设计中要做冗余设计,比如降额,比如降低运行频率,比如对关键数据寄存器做更多备份等。这里就不详细介绍了。
大家经常会发现,芯片型号在航天飞机、宇宙飞船、卫星等高可靠性应用中非常陈旧;速度很慢,估计很多都跑不过我们一般的手机芯片;它还采用了非常落后的光刻工艺,可靠性永远是第一位的。
中国的月球、火星探测、航天、北斗导航卫星等重大航天工程都取得了成功。普通人看到的是国家的强大,民族的复兴。我们看到更多的是忘我工作的科技人员所取得的重大技术突破和成果。这些科研成果将成为中国后续更好更快发展的重要基石之一。