在微机系统发展过程中,在保证可靠性方向存在着两种互相独立的设计思想:一种是排错设计,一种是容错设计。 排错设计认为,系统的可靠性立足于不发生故障。为了保证较高的可靠性,要求在系统的设计和生产过程中,对元器件进行严格的老化筛选,对元器件实行降额使用,对工艺过程严格把关,增加试验次数,提高试验要求。所有这些措施,都将使成本上升,且难以满足越来越高的可靠性要求。在这种情况下,提出了容错设计的指导思想:故障是客观存在,是不可避免。 容错的主要措施是两个方面: 1.
冗余技术 冗余技术是设置两重或多重的硬件或软件来提高系统可靠性的技术。 2.
自检技术 是指对系统本身进行检测,一旦发现故障,停机待修防止错误或动用冗余资源。 容错技术进一步发展的趋势是: 1.
由机内容错向机间容错发展,包括从微机系统的网络化、分布化中提高可靠性。 2.
研究数字电路多重故障的检测与诊断。故障定位由门一级向子系统、系统的功能测试发展。 3. 发展程序的鉴定方法,提高软件可靠性。 一、 硬件冗余 冗余单元和其他单元一同投入运行,当某些单元失效时,运行中的冗余单元负担起单元应完成的工作,也称为“热储备”。 1.
两单元并联系统 两个开关、两个电源和两个处理器并行工作。 2.
三单元表决系统 三个单元并行工作,其中任意两个有效,系统即有效工作 3.
三单元取一系统 在一个单元有故障并切除后,在切除一个,保留一个继续工作。 4.待命贮备冗余系统 这种系统共有s+1个子系统,其中只有一个处于运行状态,其余s各处于待命接替状态。 二、 信息冗余 检错/纠错码 设一个信息由k个信息位组成,则最多可有2k个信息,编码器每给增加n-k个二进位,称为冗余位。 复检 通过多次检测,取多组信息,经比较做出判断。 三、 时间冗余 时间冗余是指通过各种软硬件手段发现检测有错后,再花时间重复执行。一般重复执行的次数是有限的。显然,时间冗余对于固定性的故障是无效的。 1.指令复执 2.程序卷回 3.时间冗余的可靠性模型 四、 自检技术 1.自检的目的 对检测系统进行自检的目的,是发现检测系统的错误,提高检测可靠性,降低误检率。 2.自检的技术指标 1)覆盖率 2)冗余度 3)自检速度 4)错误的分析水平 3.自检的方法 自检也是一种检测,因此在方法和手段上讲是基本相同的。 根据自检的时间,可分为: 1)检测前的自检 2)实时自检
|