宋明家·26亿令吉的数学题

2018-11-01 11:40

宋明家·26亿令吉的数学题

由于“沙地王子”的信志期2011年2月1日,比第二封信早了2年8个月,所以比较有可能是“刘特佐密友”抄袭“沙地王子”的。

老黄读26亿令吉“捐款”新闻,看到前首相纳吉在脸书公布的“沙地王子”信函,和“刘特佐密友Eric Tan”发出的信件某些部份极为相似,心里充满迷惑:如何科学论证这两封信函?

广告

这年头人们看新闻都小心翼翼,都想来一些什么数据、研究、统计、推论、分析报告,仿佛少了这些就一定是假新闻。

不过想想分析一下也可以拿来当课堂教材用,反正一举两得,何乐不为!

我们先来看看相似的部份在哪里。

“沙地王子Saud Abdulaziz Al-Saud”志期2011年2月1日的信写的是:“The Gift should not in any eventbe construed as an act of corruption sincethis is against the practice of Islam and Ipersonally do not encourage such practicesin any manner whatsoever.This is merelya personal token of appreciation and I amhoping that the gift would encourage you tocontinue with your good work to promoteIslam and around the world.”

“刘特佐密友”在2013年10月2日发给刘特佐的信函则是:“All the art-work(s)gifted to youshould not in any event be construed asan act of corruption since this is againstthe company and/or my principles and Ipersonally do not encourage such practicesin any manner whatsoever.The gift(s)is/are merely a token of appreciation andI am hoping that the gift(s)to you wouldencourage you to continue with your goodwork globally.”

然后,我们可以问三个问题,来分析这两段文字。

广告

第一个问题是:这两人其中一人是不是涉嫌抄袭(或剽窃)?

这个不难解答。

语文专家说英文有约100万单字,包括许多废弃不用的古字;Oxford English Dictionary有17万1476个字,不过常用的据说只有3000字。

我们可以拿第一段100%相同的文字开始作分析:“should notin any event be construed as an act ofcorruption since this is against the”,并想知道“两人分隔两地、毫无联系的情况下,各别写出这同样的17个字”的概率(“可能性”的意思)。

广告

若以3000这个数目来作常用字标准,该段句子也没有重复使用相同的单字,那么随机选择第一个字“should”的几率将是1/3000,随机选中第二个字“n o t”的机率是1/2999,第三个字“i n”是1/2998,依次算下去,两个写信者“选择同样的17个字”的概率将是一兆兆兆兆兆分之八(8/10^60),也就是0.000000000000000000000000000000000000000000000000000000000008。以数学的立场来看,这“十的六十次方分之八”是非常非常非常小的可能性,却不代表不可能。

第二个在两封信重复的段落“and I personally do not encourage such practices in any manner whatsoever”字数较少(12个字),所以概率会比第一个句子高。第三个段落可以被忽略,因为只有三个字,也是常用的语法(is merelya);但第四(token of appreciation andI am hoping that the gift)和第五个段落(would encourage you to continue withyour good work)也可以用以上的算法,算出两个人随机“凑巧”写出同样文字的概率。

当然这个算法可能也夸大了些,查重软件Turnitin公司曾以另一种统计学方式,计算出两篇文章里16个单字随机契合的机率是一兆分之一;这“凑巧”机率显然高很多,原因是该统计方式计算了各种其他因素,包括单字和单字排在一起的概率(例如“not”有比较高的机率会被放在“should”的后面)。

但不管是哪一种计算方式,这“其中一人不涉嫌抄袭”的机率,肯定小于兆分之一(<0.0000000001%)。

第二个问题是:这5段文字以同样排列方式顺序出现在两封信的机率是多少?

由于有5段100%相同的文字,所以可以有5X4X3X2X1=120种排法;也就是说,两封信的5段文字“凑巧”排成以上顺序的机率是120分之一,也就是0.0083(或0.83%)。

第三个问题:谁抄袭谁的?

由于“沙地王子”的信志期2011年2月1日,比第二封信早了2年8个月,所以比较有可能是“刘特佐密友”抄袭“沙地王子”的。

老黄又不高兴了:你给的这些“文字凑巧相同”概率都非常非常非常的低,说明“沙地王子”的信件被“刘特佐密友”特意抄袭……但他怎么会得到沙地王子的信件?

或许有可能这两人都是同一个人,才会出现两封高度相似的信函!

我当然也不爽:我只负责计算概率,你要如何诠释那些数字,那是你的事,不关我的事……说完赶快溜之大吉。


 
广告
你也可能感兴趣...
 


广告



其他观点

评论

当您提交时,您等同于同意了Mollom用户私隐政策