这次分享的内容是我在某汽车厂进行的网络诊断时发现的问题。一天用户联系我们的销售说现场由于放假进行断电停产(以前生产线没有任何问题,网络也是正常的)。假后当整个生产线重新上电恢复生产时,发现现场的连接RFID的分布式IO出现经常断网的情况,使得生产线不能顺利生产!销售很快把这个问题反馈到了我这里。 在到现场之前,我咨询了一下现场工程师关于现场的网络情况。现场的控制网络和工厂的IT网络进行了连接。且它们之间没有相应的安全控制措施。 用户的反映,现场断开工厂IT网络与控制网络就不会出现PN网络中断的现象。现场的工厂IT网络和控制网络同处于一个大二层的交换机网络(没有进行网络分段)。所以,初步判定是网络规划的不合理,而且网络规模非常庞大导致网络中的广播数据流非常多,最终导致PN中断的故障现象。 控制网络是由1个S7-300的PN控制器与3个图尔克的BL20的分布式IO组成。RFID设备就接入到了其中的一个BL20的分布式IO上。在这个PN的网络上使用的交换机是罗杰康非PN的交换机。网络结构如下图1所示。设备清单如表1所示。
图1 现场控制网络的网络拓扑结构
表1 控制网络的设备清单 从上图1和上表1可以看出控制网络的设备非常的少。由于使用的是的网络上使用的交换机是罗杰康非PN的交换机,所以现场通过PROFINET的网络扫描软件无法正确识别出设备类型及正确的网络拓扑结构(这里强烈的建议,在PROFINET网络中使用带网关功能的PROFINET的交换机)。 根据用户的反馈的信息和现场查看到网络结构。于是更加确定是IT网络中的一些不正常的数据流影响到了控制网络的通信。那么我们就需要彻查一下是什么样的数据流影响了控制网络。通过PN的专用的网络诊断工具BANY PN IO抓取了S7-300 PN口的通信数据流(采样阶段出现过网络中断的想象)。经过数据的过滤分析,发现造成的故障原因是IT网络中传来大量的广播报文。如下图2所示:
图2 通信故障时的报文负载统计分析 通过图2显示出的结果,找到了产生问题的真正原因(与我的猜测是一至的)。大量广播报文出现后,此广播域中的所以设备都要处理这些广播请求,由于现场有些控制设备的性能不是很好(如:图尔克的BL20),由于一时间处理不了这些报文就会出现网络接口中断的现象。 根据现场的问题的检测,给出了两种问题的解决办法。 一是治本的方案: 重新规划网络,把一个大的广播域划分成多个小的广播域,这样可以有效地限制同一个广播域中的广播数据流量。 二是治标的解决方案: 限制工厂IT网络的广播报文进入到控制网络。方法有很多,可以通过在IT网络的交换机的端口设置广播流的限流;还可以在CPU上扩展CP通信网卡,这样从物理上来隔离工厂IT网络和控制网络。 现场实施方案一的成本比较高,而且在已经投产的情况下不容易实施。最终用户选择了方案二。且具体实施上采用的是可以通过在IT网络的交换机的端口设置广播流(这个在现场做了测试,非常有效)。 从上面的这个案例我们可以总结出如下的结论: 1、工业以太网网络是未来数字化工厂的通信的基础。 2、在实施工业以太网是,网络的前期规划非常重要。 3、学好用好工业以太网,让其成为未来数字化工厂的高速公路。 4、 在控制网络中尽量使用一些可靠的网络组件。
|