可靠性设计基础(一)--理解可靠性 一、理解与可靠性定义 我们总是会说:某某公司的东西“好用”;某某公司的产品“质量好”;我也会经常抱怨某某系统“不稳定”;某某公司的产品“不可靠”;某产品或者部件 “容易坏” ;某某品牌的东西“保养麻烦”。这些问题用户或者管理人员一般都会把他们简单归集为“质量问题”、 “可靠性问题”或者“隐含需求”。但是严格追溯起来,这些问题其实往往属于好几个不同类型的问题。技术人员有必须先科学的对问题分类,才能在问题发生的阶段去专题解决问题。 与可靠性相关的概念有以下几个: 01可靠性 可靠性只指产品在规定条件下和规定时间区间内完成功能的能力。这是国家标准中给出的定义。标准的作用是用来衡量一个产品的好坏。那么怎么如何评价一个产品可靠性的好坏呢?这就需要对这个定义进行度量。 一般来说“规定条件下”是恒定不变且长期保持的,是不具备度量条件的。首先一个产品的“功能”基本完整才可能被视为可用的产品,也不具备度量条件。因此可度量的就只剩下“时间”和“能力“。而能力是个很宽泛的概念,比较通行的度量的能力的办法就是”概率“。因此这个定义可以近似等效为:“在固定条件下和规定时间区间内保持功能完好的概率”或者”在固定条件下所有产品平均保持功能完好所持续的时间 (失效概率为50%)“。 这就引出了衡量可靠性的两个参数:失效概率“和”平均无故障时间“。且这两个参数是互为相反数。值得注意的是,如果“规定条件”发生变化,是允许可靠性下降的,但下降的趋势也是可靠性设计的需要关注指标。 本文主要讲可靠性,这些概念后面还会被多次用到。 我们经常会听到客户抱怨你的设备不稳定、不好用、不方便等等。用户最终会抱怨是设备不可靠,不稳定。其实准确的说这些都是可用性问题。 可用性的定义是:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力。它是产品可靠性、维修性和维修保障性的综合反映。因此可用性是包含了可靠性的。 可用性与可靠性的关联在于都必须考虑设备的应用环境。但是可靠性更关注的是在这个环境中能用多久(用概率表现的时间),而可用性则反应的是能不能用?能不能用好?以及能不能达到用户的期望?可用性需要考虑客户在合理的使用条件下能完全正常的工作。比如笔记本电脑,显然是可能被用户带出国,那么笔记本电脑在不同国家的电网的额定电压条件下能否正常工作就是一个重要的可用性指标;台式电脑基本就不需要考虑这种问题。埋在地下的电缆,显然有必要考虑被老鼠啃食的问题。这些都是可用性问题。而可靠性一般只用考虑额定条件下的使用时间,兼顾非正常条件下的降效指标即可。 比如说某个设备的操作员突然由一个男士变成一个女士,设备由于没有考虑到操作员的身高和力量的差异,导致女士操作的频次比男士低很多,而引起系统的运行效率下降,我们可以据此就认为设备的可用性不好。但是由于女士操作的频次下降却很可能使设备的可靠性提高了。 再举个例子,某个产品标称值为额定电压12,输入电压范围为10V~15V,平均无故障时间(MTBF)为3000小时。那么它隐含的意义是期望在12V条件下工作3000小时,其失效概率低于50%(估算值)。并没有保证客户在输入15V条件下也能持续工作3000小时。当然这个参数在实际中也不会差距太大(主要与产品寿命分布有关)。但如果产品提供者和使用者没有就这个问题沟通清楚的话,会给双方都带来很大的困扰。这就不再是可靠性问题而变成一个可用性的问题了:“用户实际需要的供电模式是什么?” 很显然,在相同条件下更可靠的设备也更安全。但是安全性与可靠性依然是两个不同的概念,有时候甚至是矛盾的。举例来说:核电站的要求的失效概率达到10-8~10-9以上(SIL5级)。这样的标准要求如果换算成MTBF,没有任何一个电子设备有可能达到这样的指标。但通过多个电子设备的并联、冗余、监视、保护等措施达到这一标准却是可能的。而新增加的这些保护、冗余等设备事实上会降低整个核电站的平均无故障时间。 为了解决安全性与可靠性的矛盾,许多应用场景会定义不同等级条件下的可靠性指标。比如地铁车辆的规定:发生A类故障(人身安全事故)的MTBF大于1百万小时、发生B类故障(停止运营)的MTBF大于10万小时;发生C类故障(更换维修)的MTBF大于1万小时。 从“1.1可靠性指标的定义”节内容可以看到,通过合理设计“可维修的部件”可以有效提高系统寿命(注意与MTBF的区别)。但是对于用户而言任何更换维护都意味着成本,即使是免费更换也要占用用户的时间成本。维护成本是设备全生命周期成本(LCC)的重要组成部分。因此在设计时应尽可能少的设计“可维修的部件”,迫不得已必须设计的也要尽可能的方便维护,使维护的时间和花费降低到最小。 二、理解可靠性指标 在可靠性设计时经常会涉及两个关键性的概念,平均无故障时间(MTBF)和寿命。 设备平均无故障时间(MTBF)是指“可修复产品“在相邻两次故障之间工作时间的数学期望值。对于这个定义有几点值得推敲: b、对于不修复产品,其产品寿命就等于设备平均无故障时间。 c、对于“可修复产品”,其产品寿命由其不可修复的部件的最短寿命决定其设备寿命。 再进一步引申:改善一个产品MTBF指标的关键点就在于提高设备部件寿命的瓶颈。而改善一个产品寿命指标的关键是将某些寿命瓶颈部件变成“可维修的部件”。举例来说:对于一辆汽车而言,如果以整车来看其平均无故障时间(无故障里程)是超过15000公里或者12个月,这显然是由机油这个部件的寿命来决定的。但是因为运行更换机油、更换刹车、皮带等保养措施的存在,一辆车的设计寿命可以达到20年;电脑的显示屏和硬盘的MTBF显然是低于其他部件的,因此电脑销售时这两个部件的质保期也经常会单列。 比如在激光加工设备中,光源显然是属于整机的寿命瓶颈,设计时就需要将其设计为“可修复单元”。因此需要为其设计为方便的维修方式,如果更换一个光源需要把整个激光加工生产线都拆了,这样造成的长时间停工是很难让用户接受的。对于公司售后维护来说也将是沉重的负担和风险。 当然也有反向的例子,手机电池是手机的寿命瓶颈,因此手机发明之初都是将其设计为“可修复单元”。但是随着电池寿命的提高,同时很多厂家为了提高手机更换频次的商业目的,现在更换手机电池已经非专业人士不可了,基本可以被认定为“不可修复单元”了。这其实是降低了手机的整机寿命。 本文以电子设计为主要对象,而电子器件很多都是焊接在板卡上,一般很难更换,这里就不再考虑更换和维修这一条件,因此本文后续的寿命就等同于平均故障时间,不再仔细区分这两个概念了。 三、可靠性指标的运用 绝大多数设备销售都有质保期的规定的,质保期怎么定往往由行业标准、市场策略、销售模式、销售价格、成本利润控制等多方面因素共同决定的。但是不管怎么定质保期是绝对不能超过设备平均无故障时间的。超过这个时间就意味着很多设备没有过质保期就已经不能正常工作了,这时用户如果要求退换、维修、甚至赔偿的话设备供应商就不可能盈利。 标称MTBF时间一般以小时计算。而质保期一般按年计算。这就存在一个对应关系。这个关系不是简单的365*24的关系。因为只有很极端的设备才会完全工作在这种全年无休的情况。而且即使是这样的设备,也不会处在满功率、满负荷并且极恶劣的工况下工作。因此其计算也不必如此保守。一般而言可以分为以下几个种类: 年使用时间 举例 一般民用设备 1500~2000小时 电视机 高频民用设备 3000小时 冰箱、电灯、手机 低负荷工业设备 3000小时 网络交换机 高负荷工业设备 5000小时 地铁,火车 超高频工业设备 8000小时 核电站 一般来说医疗设备,参照高频民用设备标准即可。 军品一般来说没有明确的使用时间要求。但是要求在标称的使用时间内超低故障率。因此一般而言军品会提高一个标准设计。比如说需求为3000小时的,一般会非硬约束(比如材料特性约束)部分的设计标准至少都要达到5000小时以上。因此我们一般会感觉军品的质量更高。 但是我确实曾经见到过销售的设备标称MTBF是3000小时,但是销售商承诺的免费质保期确是三年的情况。这种情况很多时候是销售人员基于市场压力做出来了一种商业策略。这是一种很不严谨的态度,是很难人信服的。 你可能会有疑问,家里的电器标准只有1年,但是我家里却用了很多年了也没有坏啊?怎么感觉这个值和理论值差异这么大呢?这有以下几个原因: 1、绝大多数人的使用频次其实没有理论那么高。以电视为例,计算时是以3000小时为1年计算的,但实际上你需要每天看8个小时以上的电视才能达到一年3000小时,很多人连一半的时间都达不到。 2、即使是让电器设备运行着,很多时候电器也并没有全功率运行。例如很多人的手机会24小时开机,但是绝对不会有人24小时都在连续打电话。 3、设备运行环境更优。随着生活条件的改善,现在的人已经很难想象谁会在35度以上的高温环境下长时间看电视了。即使看也很有可能开着空调、开着风扇。同时国家电网的改进、防雷措施的升级等,都会大大提高设备的使用寿命(环境因素对设备寿命的影响详细见本文后半部分的内容)。 4、公司采用了更高的设计标准。对于工厂而言每年1%的故障率并不算太高,但是对于客户而言就是100%了,1%的故障率同时意味着每售出10万台的设备就要面对上千人次投诉,当有竞争对手的更有的性能进行对比后,就会发酵为非常恶劣质量事故。因此为了降低客户投诉和与对手竞争的需要,很多厂家不得不提高设计标准。 5、多数的家用电器设计使用在广大的范围内销售的,因此设计人员会按最为恶劣的方式进行计算(也有可能是多年教训的积累)。比如你不可能让一台冰箱在东北能用一年而到了广东就只能用三个月,也不可能让电视机在室内能用三年在室外就只能用一个月。因此设计人员只能按照最恶劣的条件进行设计,这无形中又提高了设计标准。 6、设备的局部性能的改进。一个新设计的电子设备的推出后不久往往很快就会在用户反映出很多设计不足的问题。由于“二八效应”和“短板效应”的存在,设备的问题经常会集中在两三个点上,因此厂家往往会针对性的对其做出改进并应用于后续机型上。同时由于技术的进步很多部件的质量也是再缓慢提高的,因此后续机型的质量往往会优于前面的机型。但是再没有国家标准或者市场因素推动时,厂家一般也不会再重新投入成本做可靠性检测和认证,所以指标还是沿用以前的。 7、销售策略。很多厂家提供一个国家标准要求的最低质保期限,客户如果要求延长质保期就要额外收费了,但是从经济性上来说厂家很少会为延长质保的客户提供差异化的机型。 当然设备寿命也不是越长越好,除了更高的设计指标意味着更高的成本外,更高的寿命会降低用户更新换代的频次,甚至会降低用户的使用体验。以手机为例,由于“安迪-比尔定律”的存在软件技术会不断升级换代,因此手机的硬件存储资源和处理能力很快就会显得不足。因此用户一般都会在两三年内更换手机,否则新的软件应用就会体验很差。这就意味着如果手机厂家把硬件的寿命设计的很长,除了增加自己的成本外还会莫名其妙的背上性能差的恶名。所以现在手机的设计寿命都不超过2年。 可靠性设计基础(二)--失效与可靠性改进 一、理解设备失效 电子器件的失效本质上是器件内外部的电子运动、化学、机械等作用破坏了器件内部的结构。因此从长期看电子器件都是会失效的,且失效概率大致符合量子技术的分布特点:随时间成指数分布的关系。如果对失效的统计规律进行细分的话,还能将其分早期失效、偶然失效期和损耗失效期为三个阶段,见下图: 早期失效的原因主要是生产过程中引起的器件结构差异,可以通过一定的应力筛选办法可以将这部分器件筛选出来。第二阶段是器件的主要工作的时期,失效率基本处于平稳的状态,失效主要由偶然因素所造成。可以近似认为失效概率处在一个定值。到了第三阶段器件进入损失失效期后,失效率迅速上升,这就是产品的寿命“终了”。 那么既然失效是运动破坏了器件结构。反过来说要降低电子器件的失效率的办法也就来自三个方面:降低电子运动的能量;提高器件结构的强度;通过外部手段保护器件结构。 降低电子运动的能量;包括降低自身设备的电子应力和降低外部干扰电子应力两个部分的内容。降低自身设备的电子应力主要手段是降低不必要的如信号线的电流;降低功率器件的功耗;增加滤波电路和纹波吸收电路;降低系统功耗等措施;降低外部干扰电子应力则可以通过隔离、屏蔽、滤波等措施实现。 提高器件结构的强度,简单的理解就是选用标准更高的器件,能耐105℃的器件显然就比能耐70℃的器件更稳固,在相同条件下其寿命也会更高。同理,同等条件下25V耐压的电容显然比16V耐压的电容的寿命长;更高额定电流的器件也就比低额定电流的器件更耐用。用一个更通用的词汇来说就是降额设计。 保护器件结构不受损坏的方法主要在外部。很显然在高温、腐蚀性、潮湿、盐雾、震动的等环境下运行的器件结构更加容易受到损坏。那么对这些因素进行防护也是有效的提高可靠性的方法。手段有刷三防漆、加屏蔽罩、减震器、温控器等。 二、一些能改善可靠性的设计技巧 如果不考虑外部的机械、化学损坏的话,所有提高可靠性设计的手段总计起来就一句话:“降低系统的相对电应力”。以下介绍一些比较简单但是对改善可靠性非常有效的技术手段。 如前面所说,虽然理论上说做可靠性设计需要做可靠性指标的分解与计算。但是由于短板效应的存在,少数几个寿命短板往往就直接决定了系统的最终寿命,只需要能识别出一些可靠性上面的短板并针对性的做出改进,系统寿命就能得到质的改善。 识别寿命瓶颈其实并不太难,大致有以下几种方法: 一些常见的短板。包括电源、风扇、功率开关、机械开关、高频工作的机械式继电器等常常就是寿命的短板。因此对这些部分自然就是可靠性设计的重点。 高应力、高功率部件;比如开关电源中的IGBT、MOS管、电源。无线系统中的功放。 高发热部件。自身温升超过60度的器件都值得警惕。 设计余量较小的部件;比如耐压25V的器件用在24V的环境上,额定功率1W的器件实际功耗0.9W等等。 工作在恶劣环境中的部件;工作在振动、高温、潮湿环境中的部件应作重点保护和处理。必要时做更大的降额设计。 在识别出寿命的短板后,针对性的改用可靠性更高的或者容量更大的器件。短板问题就能得到巨大的提高。 绝大多数器件厂家都会给出一个标称值或者额定值。这个标称值和额定值背后其实隐藏着一个关键信息,即在这个额定值条件下能连续工作多长时间。举例来说,如某个电容的标称值是10uF-16V-70℃。其含义包含了在16V、70℃的条件下电容能连续工作1000小时。考虑到实际应用中还可能存在纹波、系统自身发热等因素,实际寿命其实远远低于1000小时。这就必须要做降额设计了。 考虑到通常来说系统额定电源每下降10%寿命会延长约一个数量级;工作温度每下降10℃寿命也会延长约一个数量级(不同类型、不同结构器件的寿命曲线参数有所不同)。那么以电容为例对于一个期望在40℃环境下能连续工作10000小时以上的设备而言,考虑上系统自身发热,电源纹波、开关过充等影响。额定电压至少应降额30%以上,额定工作温度最好选择105℃以上的。 “3.1 识别并改善寿命瓶颈”提到使用风扇会大大降低系统整体的寿命。但因为风扇的使用会改善发热部件的局部温升,从而大大提高发热部件的寿命。当然这只是散热的其中一种手段。其它的诸如:降低功耗、提高散热面积、改用新的散热方式、降低热阻等手段都能起到对关键器件的保护作用。 同理做好抗振/减振措施、加上三防涂覆、增加屏蔽、对电源加强滤波泄放等措施也都能针对性的改善设备运行环境,并针有效改善设备的可靠性。 隔离的目的就是让系统尽可能的脱离外部复杂的运行环境,让设备尽可能的在更加安全、稳定中的环境中运行。严格来说隔离措施是“3.3节改善使用环境”的其中一种手段,但由于其效果很好且很容易被忽略在这里单独提出来说。隔离包括三个层次上的隔离: 电气隔离;及通过变压器、光耦等隔离器件把独立模块与其它功能模块的电气连接关系完全打断。确保即使在外部模块完全损坏的情况下不会对内部模块的功能、性能造成大的影响。值得注意的是一旦选择了电气隔离的方案往往就意味着电源、信号、通信等所有环节都要隔离。 功能隔离;即采用磁珠、电感、滤波、去耦网络、触发器甚至简单的保险丝、二极管等器件,将某些具有独立的电气特性的区间单独划分出来的隔离方式。 间距隔离或屏蔽;通过把不同功能,不同特性的电气模块拉开一定的物理间距,甚至增加屏蔽的方式实现隔离。 从改善可靠性的效果看,电气隔离>功能隔离>间距隔离或屏蔽。但不管采用那种方式的隔离,总的来说隔离都有利于降低因为外部原因引起的电应力,从而提高系统可靠性。隔离还能同时提升系统EMC性能,安全性等性能。但隔离往往也意味着系统复杂性和成本的增加。 设备卖出后就要在用户的环境中运行。很难保证用户的环境真的就如工程师所获得的设计输入那样。很多时候符合技术标准的设备到用户那里就会出现各种各样奇葩的问题,举个例子来说:你很难要求用户不在你的设备旁边放一个大功率电机;也很难保证在野外环境下能得到50Hz频率稳定的交流电。这些看似不起眼的小变化其实都会加速设备的损耗。 不过有一个好消息是这对于所有供应商来说都是公平的。换句话说如果我们的设备在这种环境中很快就会坏,我的竞争对手也一样。那么如何让我的设备能相对的好一点,对于用户来说其体验就会大大改善。产品的口碑就会很好。再比如同样是故障,但我们的故障只是停机而竞争对手的就是爆炸、起火,那样的差距也不是能同日而语的。除了少数大型公司外,很少有公司在技术规范中有对失效模式进行细致的要求,所以许多工程师并不注重这些降低失效影响的设计。但是这些环节却经常最终表现为用户的口碑、公司的核心竞争力、甚至很多公司因为一两次重大事故而被行业封杀的案例也是时有发生的。 比如:安规设计一定要使用安规电容,因为安规电容的失效模式能确保为短路;减少在电源处使用TVS,因为TVS的失效模式会造成短路;减少钽电容的使用,因为其失效模式为短路,且容易发送燃烧。 另外增加一些失效保护模块(比如保险丝、变压器),也是控制设备失效模式的有效手段。 纹波对电路寿命的影响是非常巨大的。这是因为电子元件的寿命根据其所有应力的增大呈指数被的减小。包括电容、电感、电阻等在内的滤波器件能显著改善系统的纹波,这对提高其附近电路的寿命作用很大。适当的提高这些部件参数来控制纹波从长期看也是很有价值的。 如果进一步研究还会发现某些器件,特别是无源器件的失效模式很多是规格参数的改变。比较典型是电解电容,由于其电解液的挥发,长期看电解电容值是在下降的。而很多电解电容在电路中都是起到支撑电容的作用。但电容值下降后,电路的纹波就会不断的增加。这会进一步恶化电路可靠性。因此在做电源设计时,需要在计算控制的纹波标准的基础上将电容的参数再扩大至少半个数量级。 对于一些发生原因来自外部,发生概率随机的问题,在原理设计层面直接解决这些问题往往非常困难。理论上说我们可以把锅甩给客户,指责是用户使用不当导致的问题。但这样对用户体验也不好。 一个比较有效的方式就是设计一个能够被替换的保护模块。但问题来的时候让保护模块先行损坏,进而避免或者减弱对主要功能模块的损坏。比如:在多用电系统电路中增加保险或者断路器;在容易遭到雷击的地方增加泄放回路。 在我们生活中也有这样的案例,比如手机碎屏这个问题就是典型的:发生概率随机,发生原因多样且难以控制的问题。我们针对这样的问题最简单的解决办法就是贴保护膜,膜是可替换的,碎了可以随时更换。由于保护了屏这个易损件,站在用户层面看手机的寿命就得到很大的改善。 值得一提的是,手机的膜还是一个让用户付费的消耗品,且利润极高,其利润率比手机高出很多,甚至孕育出了一个产业。因此即使抛开技术,站在商业层面看也是一个非常成功的案例。 可靠性设计基础(三)--可靠性估计与可靠性设计体系 一、可靠性估计的意义 绝大多数从学校培养出来的工程师是没有可靠性设计理念的。他们大多数都把可靠性视为完全靠测试的性能指标。而真到了测试阶段发现了问题,往往可靠性这种非功能指标的改进又会面临来自技术上和管理上的双重困难。某种程度上说这是把可靠性视为玄学,要靠祈祷才能达成的指标了。 现在绝大多数公司都认识到了要把可靠性设计提前,要放到系统设计甚至需求阶段去考虑了,但是真到了工程师执行层面却往往一头雾水,除了提出两个似是而非的可靠性指标外,工程师们甚至不知道可靠性设计要干什么。这很可能就是缺失了可靠性估计这个环节。 可靠性估计的目的就是在系统设计阶段:1、识别系统的短板,进而及时的改进系统设计或者为后续设计识别风险;2、将可靠性指标分解到各个模块,确保各模块集成后整机能符合整机指标要求 做可靠性估计有以下几个好处 1、尽早识别风险,尽早改进。 2、为搭建可靠性设计体系创造条件。事后的测试虽然也能改进可靠性,但是过度的依赖测试永远也不可能建立起一套有效的,持续性的、稳定的可靠性设计体系。而可靠性估计是可靠性设计的最前端。有了这一环节,整个体系的建立才可能闭环。 3、一些局部的可靠性指标改进能解决某一个特定用户的重大“痛点”。在别的公司不能实现前,这会成为产品推广时的“亮点”和“卖点”。 4、符合一些行业标准和体系认证的要求(军工行业、轨道交通行业)。 下面介绍一些简便且常用的可靠性估计方法,虽然运用这些方法做出的计算并不精确,但一般来说估算结果不会存在数量级的差异。用来指导系统级的设计时由于其操作简单,还是很有实用价值的。若要进行精确的可靠性估计计算,建议按照《GJB Z 299B 电子设备可靠性预计手册》进行。 风扇的寿命按5000小时估计,高品质的风扇寿命按不超过10000小时估计。 外购模块电源寿命取以输出功率和工作温度的小值。以1000小时为基础。每降额20%,寿命增加10倍;工作温度(表面温度)每下降10℃寿命增加一个数量级;增加散热器寿命增加一个数量级、增加风扇寿命增加2倍。 温度与敏感相关的元件。工作温度每下降10℃,元件寿命增加一个数量级; 非功率部分的电压敏感元件。其工作环境的电压纹波每增加5%,寿命下降一个数量级。 非功率部分的电压敏感元件。额定电压每下降10%,寿命提高一个数量级。 非功率部分的电流敏感元件,额定电流每下降10%,寿命提高一个数量级。但考虑到电流过载情况经常比较多,计算基数应将两个数量级开始计算(做了过载理论设计的可以忽略这一项)。 功率器件(如开关电源上的IGBT和Mos管),电压和电流按每下降30%,寿命提高一个数量级。如果增加了纹波吸收电路,可以将估计值减少到电压和电流按每下降20%,寿命提高一个数量级计算。 每降额电阻工作温度低于70℃时,可以忽略其寿命影响。 集成电路工作温度低于其节温50℃时,可以忽略其寿命影响。 设备温升可以按经验公式 计算器件温升。温升加上最高标称工作环境温度为设备表面最高温度。集成电路设备表面最高温度应比标称最高温度至少低10C℃时。 寿命计算环温可以按照20℃计算,但设备的最高额定工作温度必须满足连续1000小时以上。 计算时建议再与设计标准间保留半个数量级的设计余量。 二、建立可靠性设计体系 可靠性设计仅技术层面就要包括:可靠性分解、可靠性计算、电子材料特性、电子电路知识、EMC、失效分析等环节。完善的可靠性体系还需要在公司层面搭建包括:可靠性标准、可靠性设计平台、可靠性试验环境、可靠性统计分析等完善的支撑体系。对于一些批量不大的设备,对其做完整的可靠性验证,其成本也是不可接受的。可靠性设计体系这个门槛实在太高,一般的小公司根本建设不起这样的体系。 与可靠性相关的技术平台至少应包括四方面的内容: 1、案例库;2、设计指导意见;3、有效的技术审查;4、持续更新技术平台的机制; 其中案例库和设计指导意见至少应包括以下一些设计要点: 常用的设计指标要求(内部设计标准); 禁用、限制使用材料清单; 降额设计指导意见; 热设计指导意见; 重点器件选择、使用指导意见; 推荐设计案例库(必须经过批量、长期验证); 失败设备/器件失效案例库; 将以上内容整理为硬件设计checklist,保证系统总体设计、硬件设计及系统集成测试前后都对上述标准进行审查。确保这些内容能够落地。 当然,没有哪个公司能够一开始就建立出完善的可靠性设计平台。平台中的很多内容都需要长期的时间进行积累和总结。因此逐步完善更新技术平台是逐步积累公司核心竞争力的重要部分。 前面说了,要建立一套完整的可靠性计算标准,必须严格依照《GJB Z 299B 电子设备可靠性预计手册》进行分解、计算。但这样的过程实在费效比很低,同时要让每一个设计人员都掌握这个计算方法也是很难的。而不同的工程师对标准的理解和应用不同带来的设计差异反到会对公司产品的一致性产生不利影响。一个比较好的做法是由公司一两个工程师将标准消化,形成一个基于excel表格可靠性寿命计算标准。这个标准把公司内部常用器件按大类和小类进行分类总结。根据我们的经验看,对一个产品种类比较多的中小公司而言,有计算价值的元件不超过10来个大类50个小类。以下是表格的局部范例(以下数据仅供参考): 大类 小类 使用条件 可靠性寿命 (小时) 备注 电容 陶瓷贴片电容 105℃,电压降额50%以上 忽略不计 以电压纹波最高值计算 陶瓷贴片电容 105℃,电压降额30%~50% 20000 以电压纹波最高值计算 电解电容 105℃,电压降额50%以上,容值为额定值的10倍 50000 以电压纹波最高值计算 电阻 贴片电阻 低于额定功率70%以下 忽略不计 贴片电阻 额定功率70%~100% 10000 不进一步区分计算 大型功率电阻 表面温度低于250℃ 忽略不计 由于经过消化后的大量的计算规则都是忽略或者成为一个保守值,计算工作量将大大减少。将上述器件排除掉后,剩余的影响设备寿命瓶颈的元件就非常少了。剩余的可以参照“一些可供参考的可靠性估计方法”。如果还不能完成估计,则再去查找GJB Z 299B进行计算难道将大大降低。将可靠性设计的问题聚焦到几个关键部件上。 很多公司的产品面向消费应用,其工作环境非常良好,比如设计工作温度为0~40℃.这样的设计标准其实是很低的。达到这样的设计标准的产品显然是合格的产品。因此很多公司就很少在进一步向上做测试了。但这样的测试其实是很有必要的。 其实依据可靠性试验的一个基本原理,按温度每提高10℃,寿命下降一个数量级估算。我们有理由相信能在70℃高温箱里工作2个小时的设备,就能在60℃环境里工作20个小时以上,40℃环境里工作2000个小时以上,20℃环境里工作200000个小时以上。虽然这样的估计不能完全准确,但对于一个想设计出高可靠产品的厂家而言,其产品在高温箱里走过一圈后,相信无论技术人员、市场人员、还是管理人员都会对自己的产品更有底气。 在第二章中展示的浴盆曲线中的第一阶段早期失效的失效概率是很高的,且存在随工作时间增加而快速下降的趋势。去掉这部分的失效概率最直接最有效的方法就是在产品出厂前进行老化筛选。即让产品在接近最大工作问题条件下(一般是最高工作问题向下降5~10度)连续工作24~48小时。让产品在交付用户的时候就直接跳过“早期失效区”,进入“偶然失效区”。这样站在用户层面看,产品的绝对失效概率就大幅度下降了。 现在工业品、军品都会在产品标准中明确系统出厂老化筛选要求。当然增加这样的筛选会一定程度的增加生产成本和材料成本(主要是损耗维修),因此需要厂家综合考虑。 05关注设计瓶颈,长期坚持低瓶颈方案设计 前面已经提到一些关键性的设计瓶颈经常就会制约产品可靠性指标。如果公司制定相关的设计标准或者以不成文的规定限制设计人员采用一些低寿命模块。短期看这样会束缚设计人员的手脚,影响开发进度,甚至增加产品成本。这些限制经常不得不进行系统方案级别的修改。但从长期看收益颇多。很多时候设计人员为了规避性的设计约束,不得不的深扣技术细节,从原理上进行创新,进而能形成许多具有高度独创性的和针对性的专利技术。长期坚持好的技术习惯、好的设计标准的最终形成的就是这个公司独特的行业标签,是公司商业品牌的重要组成部分。 在这方面最优秀的案例是苹果公司。从苹果诞生那天起,乔布斯非常就痛恨风扇和线缆,他近乎偏执的要求所有产品中坚持无风扇、少线缆、少接口的设计。当然其初衷可能仅仅只是噪声影响用户体验或者线缆太多影响美观而已。但是正是这份坚持,让苹果的产品的用户体验长期领先于对手,同时这份坚持为苹果带来了历史上第一款开关电源设计,为苹果缔造了世界上最优异的散热设计团队,并让这个团队成为苹果的核心竞争力之一。 没有哪个公司的产品设计出来就没有任何问题,怎么应对问题每个公司的做法天差地别。特别当客户使用发现重大问题,给公司高层施加压力时,公司从上倒下还能不能保持冷静本着实事求是的态度来解决问题而不是掩盖问题就反映的是一个公司司品的时候了。严格来说这已经不是管理和技术层面的问题了,而是一种企业文化。具备不放过任何问题,不掩盖问题,任何问题双归零,踏踏实实去定位问题文化的公司才有可能有靠谱的产品。有这样文化的公司才有可能积累技术。 来源:纳米维景 |
|