一个貌似简单却富含哲理的概率问题

这个哲理太传统了,不能当经典看了, 道理不必多说
就这个故事看,改成30,000也不影响我的意见啊,比如那个硬币是特殊的。。。

相信有些人会在3变成30的时候改变主意。当然有些人不会改变主意。 这说明:

哲理二:量变也不一定就引起质变。

:)
 
回答这问题:
1. 字和公仔的机率要知道谁大谁细或一样 , 这問題没有提供
2. 还要知玩者有没有出術(like one guy said is it fair play?), 这資料也没提供

所以我的答覆是不知道!

若要我選三項之一, 我一定要下假设:
1. 假设以上1項是一样和2項是没出術, 答案是字和公的机会是一样, 这和以前的结果没一点关連, 这根本是在假设里
我们有時被量騙了, 出了很多次公仔便以为会影响下一次, "量不改变本質"

2. 假设2項没出術 ,那么仔出现的次数越多便越可能公仔的机率大於字,
3 , 30.300,3000,30000 便有意义了,"量仍不改变本質, 卻反影質"
公仔出现29999但字只出现99次,我们當然答公机会大, 因coin是有问题,例如正面的輕於反面 ,故落下時正(公仔)向上的机会大些,抛者卻是随意的,不出術

3. 若2項玩者是出術專家 那答案是隨他意了 He is the King:D


这个有点哲理的气味了。 ;)
 
那我说说我的看法吧。

如果这个题目出在普通本科生的概率教科书上(当然不会说什么酒吧,陌生人之类的事),那么,标准答案应该是:一样大。

这样的答案是基于两个假设。

1. 这个硬币是公平的。
2. 掷硬币的结果是相互独立的。

因为这样的假设是标准假设,约定俗成,所以如果书上有这个作业题,可能根本不会专门注明这两个假设。

但我写这个题目的时候,特意加入了一些情景,意在说明:在考虑这个问题的时候,请把这个问题当作实际生活中的问题,而不是教科书上的作业题。如果是这样,设身处地地想像一下:一个陌生人,掷了30次硬币,全是正面。这个时候,恐怕很多人会很自然地冒出两个问号:

A。 这个硬币是不是有问题 (比如做的不好,特制的,等等)?
B。这个人不会是个职业赌徒,可以控制掷硬币的结果?

问号A实质上是在质疑假设1是否成立,问号B是在(一定程度上)质疑假设2是否成立。

如果假设2不成立,或者如果这个人能控制投掷硬币的结果,那什么样的可能性都有,这个问题就不再是个数学问题了。 让我们还是试图把这个问题当作数学问题来考虑,即,只认为假设1不成立,来看看这个问题有没有什么数学方法来严谨地回答我们的质疑。

如果假设1不成立,也就是说这个硬币可能做得有问题 (注意:这个问题跟生孩子的问题不同,在生孩子问题理,我们已知生男孩的概率是0.5)。 在这样的前提下,我们可以假设这个硬币在随机投掷后出现正面的概率是 x, 一个在0到1 之间未知的实数。

决定于你用什么样的统计推断原则,这个问题的数学抽象会有所不同。 我下面用贝叶斯原则来 formalize 这个问题 .

让我们回到最初的问题设定:一共投掷了三次硬币。三次投掷硬币的结果分别用y1, y2, y3 来表示。当然第四次结果用 y4 表示。下面用 1 表示正面,0 表示反面。

在贝叶斯的框架下,未知的参数都被认为是随机变量。所以,这里x可以看成是个随机变量。 在没有任何其他信息的前提下,关于x,最简单的假设是, x 在 [0, 1]这个区间均匀分布, 即 对于任意给定的此区间内的数 a, p(x=a)=1. 注意,这里的p 不是概率,而是概率密度,因为 x 是个连续随机变量。(另注:把x假定成均匀分布未必最好,因为直觉上更切合实际的分布函数应该是个关于0.5对称的分布,中间高两边低的形状,比如用个beta distribution. 不过这里简单起见,还是用均匀分布。)

我们希望解决下面这个问题:确定 p(y4=1|y1=y2= y3=1), 为简单起见,管这个数叫 A。下面解A。

下面,用 SUM_x {f(x)} 表示对 函数 f(x) 在 区间 [0, 1]求积分。


p(y4|y1, y2, y3)
= SUM_b {p(x=b, y4 | y1, y2, y3)}
= SUM_b {p(x=b, y1, y2, y3, y4) /p(y1, y2, y3)}
= SUM_b {p(y1, y2, y3, y4|x=b) * p(x=b)/ p(y1, y2, y3)}

在 上面的 { } 内, 分母等于

p(y1, y2, y3)
= SUM_a {p(y1, y2, y3|x=a)*p(x=a)}
= SUM_a {p (y1, y2, y3|x=a)*1}
= SUM_a {p(y1|x=a)*p(y2|x=a)* p(y3|x=a)} (due to independence, i.e., assumption 2).


分子等于

p(y1, y2, y3, y4|x=b) * p(x=b)
= p(y1, y2, y3, y4|x=b)* 1
= p(y1|x=b)* p(y2|x=b)* p(y3|x=b)* p(y4|x=b) (again, due to independence)

不论是哪个y, p(y=1|x=a)=a. Now

A= p(y4=1|y1=y2=y3=1)
= SUM_b{ b^4/ SUM_a {a^3} }
=SUM_b{b^4/ 0.25}
=0.8

所以,在完全不知道那个硬币是不是公平的前提下,根据这三次掷硬币的结果判断,有80%的可能性第四次还会是正面。推而广之,如果掷了N次,第N+1次掷出正面的概率是(N+1)/(N+2),当N逐渐增大的时候,算出来的概率趋近于 1。(0.8 这个数字感觉上有点大,这主要时因问把x设成均匀分布的原因。如果取个合适的beta distribution for x, 数字会小一些,但也是大于0.5,而且也是N越大,算出的概率越趋向于 1。 这里的数学道理是,如果我们不能肯定x 一定是0.5, 而且先验地假设它关于0.5对称分布,在投掷完硬币之后,x 的后验概率(a posteriori probability) 分布就不再关于0.5对称,而是朝 1 的方向倾斜了。N越大,倾斜得越厉害。).

好吧,来点“哲理”吧。;)



要是你相信你的直觉和我给的答案,那你应该看到:

哲理三: 直觉有时候比公认的理论更靠谱。

哲理四:一连串类似事情的发生往往不是偶然的。

(“旺”的人很可能继续“旺”下去,“霉”的人很可能一直“霉”下去 。。。 :)

大家应该注意到了,两个答案的关键区别在于是否先验地认为假设 1 成立。

哲理五:我们的结论往往决定于我们先验地相信什么。

值得一提的是:“一样大”的答案也未必不对。因为我们不知道事实到底是怎么回事,两个答案谁对谁错,可以无休止的辩论下去。

哲理六:有些事情是没有对错的。


:)
 
这个哲理是给你自己用的,不是所有人都跟你一样想太多的
 
好吧,来点“哲理”吧。;)



要是你相信你的直觉和我给的答案,那你应该看到:

哲理三: 直觉有时候比公认的理论更靠谱。

哲理四:一连串类似事情的发生往往不是偶然的。

(“旺”的人很可能继续“旺”下去,“霉”的人很可能一直“霉”下去 。。。 :)
哲理五:我们的结论往往决定于我们先验地相信什么。

值得一提的是:“一样大”的答案也未必不对。因为我们不知道事实到底是怎么回事,两个答案谁对谁错,可以无休止的辩论下去。

哲理六:有些事情是没有对错的。


:)


I know what were you trying to say. ;)

When we choose a stock, we look its previous performance. Because we agree 哲理四:一连串类似事情的发生往往不是偶然的。

(“旺”的人很可能继续“旺”下去,“霉”的人很可能一直“霉”下去 。。。 :)
 
那我说说我的看法吧。

如果这个题目出在普通本科生的概率教科书上(当然不会说什么酒吧,陌生人之类的事),那么,标准答案应该是:一样大。

这样的答案是基于两个假设。

1. 这个硬币是公平的。
2. 掷硬币的结果是相互独立的。

因为这样的假设是标准假设,约定俗成,所以如果书上有这个作业题,可能根本不会专门注明这两个假设。

但我写这个题目的时候,特意加入了一些情景,意在说明:在考虑这个问题的时候,请把这个问题当作实际生活中的问题,而不是教科书上的作业题。如果是这样,设身处地地想像一下:一个陌生人,掷了30次硬币,全是正面。这个时候,恐怕很多人会很自然地冒出两个问号:

A。 这个硬币是不是有问题 (比如做的不好,特制的,等等)?
B。这个人不会是个职业赌徒,可以控制掷硬币的结果?

问号A实质上是在质疑假设1是否成立,问号B是在(一定程度上)质疑假设2是否成立。

如果假设2不成立,或者如果这个人能控制投掷硬币的结果,那什么样的可能性都有,这个问题就不再是个数学问题了。 让我们还是试图把这个问题当作数学问题来考虑,即,只认为假设1不成立,来看看这个问题有没有什么数学方法来严谨地回答我们的质疑。

如果假设1不成立,也就是说这个硬币可能做得有问题 (注意:这个问题跟生孩子的问题不同,在生孩子问题理,我们已知生男孩的概率是0.5)。 在这样的前提下,我们可以假设这个硬币在随机投掷后出现正面的概率是 x, 一个在0到1 之间未知的实数。

决定于你用什么样的统计推断原则,这个问题的数学抽象会有所不同。 我下面用贝叶斯原则来 formalize 这个问题 .

让我们回到最初的问题设定:一共投掷了三次硬币。三次投掷硬币的结果分别用y1, y2, y3 来表示。当然第四次结果用 y4 表示。下面用 1 表示正面,0 表示反面。

在贝叶斯的框架下,未知的参数都被认为是随机变量。所以,这里x可以看成是个随机变量。 在没有任何其他信息的前提下,关于x,最简单的假设是, x 在 [0, 1]这个区间均匀分布, 即 对于任意给定的此区间内的数 a, p(x=a)=1. 注意,这里的p 不是概率,而是概率密度,因为 x 是个连续随机变量。(另注:把x假定成均匀分布未必最好,因为直觉上更切合实际的分布函数应该是个关于0.5对称的分布,中间高两边低的形状,比如用个beta distribution. 不过这里简单起见,还是用均匀分布。)

我们希望解决下面这个问题:确定 p(y4=1|y1=y2= y3=1), 为简单起见,管这个数叫 A。下面解A。

下面,用 SUM_x {f(x)} 表示对 函数 f(x) 在 区间 [0, 1]求积分。


p(y4|y1, y2, y3)
= SUM_b {p(x=b, y4 | y1, y2, y3)}
= SUM_b {p(x=b, y1, y2, y3, y4) /p(y1, y2, y3)}
= SUM_b {p(y1, y2, y3, y4|x=b) * p(x=b)/ p(y1, y2, y3)}

在 上面的 { } 内, 分母等于

p(y1, y2, y3)
= SUM_a {p(y1, y2, y3|x=a)*p(x=a)}
= SUM_a {p (y1, y2, y3|x=a)*1}
= SUM_a {p(y1|x=a)*p(y2|x=a)* p(y3|x=a)} (due to independence, i.e., assumption 2).


分子等于

p(y1, y2, y3, y4|x=b) * p(x=b)
= p(y1, y2, y3, y4|x=b)* 1
= p(y1|x=b)* p(y2|x=b)* p(y3|x=b)* p(y4|x=b) (again, due to independence)

不论是哪个y, p(y=1|x=a)=a. Now

A= p(y4=1|y1=y2=y3=1)
= SUM_b{ b^4/ SUM_a {a^3} }
=SUM_b{b^4/ 0.25}
=0.8

所以,在完全不知道那个硬币是不是公平的前提下,根据这三次掷硬币的结果判断,有80%的可能性第四次还会是正面。推而广之,如果掷了N次,第N+1次掷出正面的概率是(N+1)/(N+2),当N逐渐增大的时候,算出来的概率趋近于 1。(0.8 这个数字感觉上有点大,这主要时因问把x设成均匀分布的原因。如果取个合适的beta distribution for x, 数字会小一些,但也是大于0.5,而且也是N越大,算出的概率越趋向于 1。 这里的数学道理是,如果我们不能肯定x 一定是0.5, 而且先验地假设它关于0.5对称分布,在投掷完硬币之后,x 的后验概率(a posteriori probability) 分布就不再关于0.5对称,而是朝 1 的方向倾斜了。N越大,倾斜得越厉害。).

好吧,来点“哲理”吧。;)



要是你相信你的直觉和我给的答案,那你应该看到:

哲理三: 直觉有时候比公认的理论更靠谱。

哲理四:一连串类似事情的发生往往不是偶然的。

(“旺”的人很可能继续“旺”下去,“霉”的人很可能一直“霉”下去 。。。 :)

大家应该注意到了,两个答案的关键区别在于是否先验地认为假设 1 成立。

哲理五:我们的结论往往决定于我们先验地相信什么。

值得一提的是:“一样大”的答案也未必不对。因为我们不知道事实到底是怎么回事,两个答案谁对谁错,可以无休止的辩论下去。

哲理六:有些事情是没有对错的。


:)

统计要在足够的样本条件下才有意义。就3次的话,根本不能以此来算概率的。30次也很少。
 
统计要在足够的样本条件下才有意义。就3次的话,根本不能以此来算概率的。30次也很少。

Statistics can be used for a small number of trials. The difference is of course the accuracy associated with the number, or in statistical term, the confidence level. The answer given, 0.8 probably has a rather low level of confidence.
The assumption LZ gave is:
1. The coin's construction is not known. It can be as biased as you like.
2. The skill of the coin tosser is considered random. That is, it assumes that the coin tosser would not influence the outcome of the flip. This is very important, otherwise he can manipulate his toss to favor either side of the coin. Then any probability/statistics can be thrown out of the window.
 
统计要在足够的样本条件下才有意义。就3次的话,根本不能以此来算概率的。30次也很少。

一个袋子里面有三个球,两个黑的,一个白的。 拿出来一个一看:白的。 如果再拿一个,是白的可能性大还是黑的可能性大? 这里我只取了一个球。 :)

俺的原题里不是要确定下一次掷硬币的结果,而是要得到下一次掷硬币结果的概率分布函数。 This is a well defined problem within the theory of probability, whether or not you consider it "statistics".

的确,我只看到了三个正面,但是我的结论也不是说y4 就一定是正面啊。我的结论只是说正面的可能性更大而已。

BTW, statistics has two kinds, descriptive statistics (with the purpose of describing the data) and inferential statistics (with the purpose of inferring unobserved random variables or estimating hidden parameters). This problem is the second kind, and there is no need to have large sample size, although large sample size does help in improving the confidence. In case of small sample size, Bayesian approaches as I presented above are favoured, compared with the "frequentist" approaches.

当然,statistics 本身就是个controversial subject, 大拿之间的战火都没有停歇过。 所以不能convince 大家,俺也理解拉。
 
I know what were you trying to say. ;)

When we choose a stock, we look its previous performance. Because we agree 哲理四:一连串类似事情的发生往往不是偶然的。

(“旺”的人很可能继续“旺”下去,“霉”的人很可能一直“霉”下去 。。。 :)

;)
 
一个袋子里面有三个球,两个黑的,一个白的。 拿出来一个一看:白的。 如果再拿一个,是白的可能性大还是黑的可能性大? 这里我只取了一个球。 :)

俺的原题里不是要确定下一次掷硬币的结果,而是要得到下一次掷硬币结果的概率分布函数。 This is a well defined problem within the theory of probability, whether or not you consider it "statistics".

的确,我只看到了三个正面,但是我的结论也不是说y4 就一定是正面啊。我的结论只是说正面的可能性更大而已。

BTW, statistics has two kinds, descriptive statistics (with the purpose of describing the data) and inferential statistics (with the purpose of inferring unobserved random variables or estimating hidden parameters). This problem is the second kind, and there is no need to have large sample size, although large sample size does help in improving the confidence. In case of small sample size, Bayesian approaches as I presented above are favoured, compared with the "frequentist" approaches.

当然,statistics 本身就是个controversial subject, 大拿之间的战火都没有停歇过。 所以不能convince 大家,俺也理解拉。

Naive Baysian是用在机器学习里的统计model,我曾经研究过并做过实验。从发表的论文上来看,凡是用这个model做实验的都至少要用几百个sample来training才能保证结果可靠有说服力。 不要说3个例子,几十个例子来做实验都不可能发表在论文上。

所以还是那句话,3个sample太少。3个sample谈不上什么概率分布函数。
 
Naive Baysian是用在机器学习里的统计model,我曾经研究过并做过实验。从发表的论文上来看,凡是用这个model做实验的都至少要用几百个sample来training才能保证结果可靠有说服力。 不要说3个例子,几十个例子来做实验都不可能发表在论文上。

所以还是那句话,3个sample太少。3个sample谈不上什么概率分布函数。

Naive Bayes 是机器学习里面最简单的模型之一。 俺没研究。 ;)

不过略知一二。 ;)

虽然和俺这里给的解法一样, naive bayes 也是基于 Bayes Rule, 但它的目的和这里的目的还是不同的。它的目的是classification. 而且不是所有带“Bayes”的东东都是“naive Bayes” 哈。 “naive” 在这里无非是只模型中对高维 feature vector 的各个component 之间的独立性的假设。naive bayes 跟俺这个setup 还是不一样的哈。俺这里不是个高维的problem,也不是classification,所以跟naive bayes 没啥关系哈。

概率分布函数是所有随机变量都有的。 In fact, it is precisely the distribution of the random variable that defines the random variable. 只要有随机变量,不管是1个还是100个,概率分布函数都存在。

当然,俺这个,只是玩哈,跟发文章也没啥关系啊 ;)
 
原来是个显摆帖。











闪了。
 
原来是扔玻璃球,'正面'的可能为1。
 
后退
顶部