DCS冗余问题的详细介绍
发布日期:
2021-10-20

冗余技术就是增加多余的设备,以保证系统更加可靠、安全地工作。冗余的分类方法多种多样,按照在系统中所处的位置,冗余可分为元件级、部件级和系统级;按照冗余的程度可分为1:1冗余、 1:2冗余、1:n冗余等多种。在当前元器件可靠性不断提高的情况下,和其它形式的冗余方式相比,1:1的部件级热冗余是一种有效而又相对简单、配置灵活的冗余技术实现方式,如I/O卡件冗余、电源冗余、主控制器冗余等。因此,目前国内外主流的过程控制系统中大多采用了这种方式。当然,在某些局部设计中也有采用元件级或多种冗余方式组合的成功范例。二个部件组成的并联系统(互为冗余)与单部件相比,平均无故障时间是原来的1.5倍。

但它并不是两个部件简单的并联运行,而是需要硬件、软件、通讯等协同工作来实现。将互为冗余的两个部件构成一个有机的整体,通常包括以下多个技术要点:

1)信息同步技术

它是工作、备用部件之间实现无扰动(Bumpless)切换技术的前提,只有按控制实时性要求进行高速有效的信息同步,保证工作、备用部件步调一致地工作,才能实现冗余部件之间的无扰动切换。

在热备用工作方式下,其中一块处于工作状态(工作卡),实现系统的数据采集、运算、控制输出、网络通讯等功能;而另一块处于备用状态(备用卡),它实时跟踪工作卡的内部控制状态(即状态同步)。工作/备用卡件之间的正/负逻辑是互斥的,即一个为工作卡,另一个必定是备用卡;而且它们之间有冗余控制电路(又称工作/备用控制电路)和信息通讯电路,以协调两块卡件同时而且有序地运行,保证对外输入输出特性的同一性,即对于用户使用而言,可以认为只有一个部件。一般在设计中,工作、备用部件之间通过高速的冗余通讯通道(串行或并行)实现运行状态互检和控制状态的同步(如组态信息、输出阀位、控制参数等)。

2)故障检测技术

为了保证系统在出现故障时及时将冗余部分投入工作,必须有高精确的在线故障检测技术,实现故障发现、故障定位、故障隔离和故障报警。故障检测包括电源、微处理器、数据通讯链路、数据总线及I/O状态等。其中故障诊断包括故障自诊断和故障互检(工作、备用卡件之间的相互检查)

3) 故障仲裁技术和切换技术

精确及时地发现故障后,还需要及时确定故障的部位、分析故障的严重性,依赖前文提到的冗余控制电路,对工作、备用故障状态进行分析、比较和仲裁,以判定是否需要进行工作/备用之间的状态切换。控制权切换到冗余备用部件还必须保证快速、安全、无扰动。当处于工作状态的部件出现故障(断电、复位、软件故障、硬件故障等)或者工作部件的故障较备用部件严重时,备用部件必须快速地无扰动地接替工作部件的所有控制任务,对现场控制不造成任何影响。同时要求切换时间应为毫秒级,甚至是微秒级,这样就不会因为该部件的故障而造成外部控制对象的失控或检测信息失效等等。另外,还需要尽快通过网络通讯或就地LED显示进行报警,通知用户出现故障的部件和故障情况,以便进行及时维护。

4)热插拔技术

为了保证容错系统具有高可靠性,必须尽量减少系统的平均修复时间MTBR。要做到这一点,在设计上应努力提高单元的独立性、可修复性、故障可维护性。实现故障部件的在线维护和更换也是冗余技术的重要组成部分,它是实现控制系统故障部件快速修复技术的关键。部件的热插拔功能可以在不中断系统正常控制功能的情况下增加或更换组件,使系统平稳地运行。

5)故障隔离技术

冗余设计时,必须考虑工作、备用部件之间的故障应该做到尽可能互不影响或影响的概率相当小(0.01%),即可认为故障是隔离的。这样可以保证:处于备用状态的部件发生故障时,不会影响冗余工作部件或其他关联部件的正常运行,保证冗余的有效性。

1)主控制卡/器即CPU的冗余

2) 电源系统冗余

3) 网络系统冗余

采用冗余网卡和冗余网络接口。正常工作时,冗余的两条数据高速通路同时并行运行,自动分摊网络流量,并考虑了负载均衡的冗余设计,使系统网络通信带宽提高。当其中一路故障(网卡损坏或出现线路故障)时,另一路自动地承担全部通信负载,保证通信的正常进行。

4)冷却系统冗余

利用控制柜内可自动切换的冗余风扇,对风扇和机柜内温度进行实时监测,发现工作风扇故障或柜内温度过高时都会自动报警,并自动启动备用风扇。