精华 Fault Tolerance

shusheng

CFC 分析员
VIP
注册
2003-07-10
消息
9,868
荣誉分数
440
声望点数
193
Fault Tolerance是做IT常见的一个词,中文翻出来好象叫“容错”。它的意思是说,一个系统,要能够正确对应突然出现的,没有预料到的错误,并在尽可能短的时间内恢复系统服务。从可靠性上来讲,一个出错但可以自我纠正的系统,比一个不常出错,但一旦出错无法恢复的系统要可靠得多。

计算机系统如此,人生又何尝不是呢?
 
you want to say what :blink:
 
最初由 shusheng 发布
Fault Tolerance是做IT常见的一个词,中文翻出来好象叫“容错”。它的意思是说,一个系统,要能够正确对应突然出现的,没有预料到的错误,并在尽可能短的时间内恢复系统服务。从可靠性上来讲,一个出错但可以自我纠正的系统,比一个不常出错,但一旦出错无法恢复的系统要可靠得多。

计算机系统如此,人生又何尝不是呢?

If I am not wrong, fault tolerance is highly related to the redundancy...in terms of IT, the redundancy can be hardware redundancy, software redundancy, time redundancy etc..

Unfortunately, in real life, we can't have too much redundancies, such as spouse (wife/husband) redundancy, house redundancy, job redundnacy...

....

The idea is good, just hard to implement :)
 
redundancy只是 FAULT TOLERANCE的一种方式 :blink: 还有很多其他方法做到 fault tolerance :blink:
 
Rabbit说的对,Fault Tolerance的实现,可以是冗余,也可以是别的侦错技术。但其精神是“可以出错”。

我只是有感于不少人事事求全,总是为自已人生的每一个决定上穷碧落下黄泉的样子。其实,做错一两个决定又有什么关系?只要能及时更正,汲取教训,人生同样精采。
 
最初由 shusheng 发布
Rabbit说的对,Fault Tolerance的实现,可以是冗余,也可以是别的侦错技术。但其精神是“可以出错”。

我只是有感于不少人事事求全,总是为自已人生的每一个决定上穷碧落下黄泉的样子。其实,做错一两个决定又有什么关系?只要能及时更正,汲取教训,人生同样精采。
说的精彩!:cool:
 
最初由 shusheng 发布
Rabbit说的对,Fault Tolerance的实现,可以是冗余,也可以是别的侦错技术。但其精神是“可以出错”。

我只是有感于不少人事事求全,总是为自已人生的每一个决定上穷碧落下黄泉的样子。其实,做错一两个决定又有什么关系?只要能及时更正,汲取教训,人生同样精采。

觉得你是曲解了容错的定义:D (可在茶馆起帖子继续探讨):D

容错的精神不是可以出错(出错是谁也预防不了的),而是在出错的情况下,如何使系统仍能正常运作。。容错的实现代价是奢侈的,民航客机要备 N 个发动机,就是以防有一个发动机失常,还有N-1个可运作。。。:D

。。。其实,做错一两个决定又有什么关系?只要能及时更正,汲取教训,人生同样精采。

俺倒觉得这句话有些类似于神经网络中的“自学习“功能。。。
 
最初由 Rabbit 发布
redundancy只是 FAULT TOLERANCE的一种方式 :blink: 还有很多其他方法做到 fault tolerance :blink:

兔子,讲讲吧,省得我去google了,还有 what 很多其他方法做到 fault tolerance:blink: :blink:
 
在哪位学究找到“容错”的严格定义之前,俺先发表一派胡言:

某个系统如果出错可以把错误限制在局部范围,而不造成崩溃,可以把它叫做低级容错系统。比如单引擎飞机,发动机发生故障没有空中解体,滑翔和方向控制功仍然完好,虽然没有到达目的地,但是滑翔降落保住了生命和飞机。

如果能够纠正错误或者完全不受错误的影响,就算他高级容错系统。比如磁盘冗余阵列、多引擎飞机、冗余纠错代码,不在乎出点小错。除了“冗余”的办法以外,重试也是个常用的办法,很多由于小概率事件引起的错误,不同彻底程度的重试可以恢复功能。

如果把“错误”叫成“例外”更好听些。错误处理就变成例外处理,这样感觉上这个系统更正确一些。

只研究IT和飞机太学究气了,是个错误。请书生纠错,继续发挥下去,比如:
为什么犯错误是不可避免的,以及在人生中如何实现低级容错和高级容错,
为什么不犯错误的人生是不完整的、不符合人性的、残酷的、...
容错包括容许自己错和容许别人错两部分,分别进行探讨
....
 
无老的题目太大,我做不了。:D

我说的容错的精神是可以出错,是相对那些梦想整个系统永远正确的设计师的。而且“在出错的情况下,如何使系统仍能正常运作”本身,就是承认了会出错的前题。至于出错后,怎样纠正,则是另一话题。

使用冗余,仅只是增大“有效运行时间”(MTBF)而已。而无老指出的“低级容错(纠错)”,比如重启被损坏的程序(Software Watchdog),重启系统(Hardware Watchdog),在我看来都是“Fault Tolarence”的一种。因为这些缩短了MTTR,同样提高了可靠性。从某种意义上来说,CFC有时出现的“服务器正忙”,也是“容错”的一种。它拒绝一部份服务,从而保证系统不会完全崩溃。

无老的“容错包括容许自己错和容许别人错两部分”到是我原来没有想到的地方。
 
最初由 shusheng 发布
无老的题目太大,我做不了。:D
那弄个小的做做:
在人生中如何犯好一个可以出的错,而不至于造成神经系统崩溃。(纠正是另外一个话题可以不管)
 
后退
顶部