贵圈
政府都对党
- 注册
- 2014-10-21
- 消息
- 32,808
- 荣誉分数
- 6,137
- 声望点数
- 373
影响多达 216,000 项研究——流行的遗传方法被发现存在严重缺陷
话题:遗传学隆德大学人口通过 隆德大学 2022 年 9 月 23 日
这种有缺陷的方法已被用于数十万项研究。
一项新的研究揭示了群体遗传学中一种常见分析方法的缺陷。
根据瑞典隆德大学最近的研究,群体遗传学中最常用的分析方法存在严重缺陷。这可能导致不正确的结果和对种族和遗传关系的误解。该方法已用于数十万项研究,影响医学遗传学甚至商业血统测试的结果。该研究结果最近发表在《科学报告》杂志上。收集科学数据的速度越来越快,导致了庞大且非常复杂的数据库,这被称为“大数据革命”。研究人员采用统计技术来压缩和简化数据,同时保留大部分重要信息,以使数据更易于管理。PCA(主成分分析)可能是最广泛使用的方法。将 PCA 想象成一个烤箱,以面粉、糖和鸡蛋作为输入数据。烤箱可能总是做同样的事情,但最终的结果,蛋糕,很大程度上取决于成分的比例和它们的混合方式。
“预计这种方法会给出正确的结果,因为它被频繁使用。但这既不能保证可靠性,也不能产生统计上可靠的结论,”隆德大学分子细胞生物学副教授 Eran Elhaik 博士说。
根据 Elhaik 的说法,这种方法有助于发展关于种族和民族的古老信仰。它在制造关于人们来自谁和来自哪里的历史故事中发挥着作用,不仅是科学界,还有商业祖先公司。一个众所周知的例子是,一位著名的美国政治家在 2020 年总统竞选之前使用血统测试来支持他们的祖传主张。另一个例子是将德系犹太人误解为受 PCA 结果驱动的孤立群体或种族。
“这项研究表明,这些结果是不可靠的,”Eran Elhaik 说。
PCA 用于许多科学领域,但 Elhaik 的研究侧重于其在群体遗传学中的使用,其中数据集大小的爆炸性特别严重,这是由于DNA
DNA, or deoxyribonucleic acid, is a molecule composed of two long strands of nucleotides that coil around each other to form a double helix. It is the hereditary material in humans and almost all other organisms that carries genetic instructions for development, functioning, growth, and reproduction. Nearly every cell in a person’s body has the same DNA. Most DNA is located in the cell nucleus (where it is called nuclear DNA), but a small amount of DNA can also be found in the mitochondria (where it is called mitochondrial DNA or mtDNA).
" data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]" style="margin: 0px; padding: 0px; border-top: 0px; border-right: 0px; border-bottom: 1px dotted rgb(0, 0, 0) !important; border-left: 0px; border-image: initial; font: inherit; vertical-align: baseline; text-decoration: none !important; color: rgb(0, 0, 0) !important;">DNA测序成本降低所致。
古基因组学领域,我们想了解古代民族和个人,如铜器时代的欧洲人,在很大程度上依赖于 PCA。PCA 用于创建将未知样本与已知参考样本放在一起的遗传图谱。到目前为止,未知样本被假定与它们在地图上重叠或最接近的任何参考群体有关。
然而,Elhaik 发现,只要改变参考样本的数量和类型(见插图),就可以使未知样本接近任何参考总体(见插图),生成几乎无穷无尽的历史版本,在数学上都是“正确的”,但只有一个可能在生物学上是正确的。
在这项研究中,Elhaik 研究了 PCA 的 12 种最常见的群体遗传应用。他使用模拟和真实的遗传数据来展示 PCA 结果的灵活性。根据 Elhaik 的说法,这种灵活性意味着基于 PCA 的结论不可信,因为对参考或测试样本的任何更改都会产生不同的结果。
仅在遗传学方面就有 32,000 到 216,000 篇科学文章使用 PCA 来探索和可视化个体和群体之间的异同,并根据这些结果得出结论。
“我相信必须重新评估这些结果,”Elhaik 说。
他希望这项新研究能够开发出一种更好的方法来质疑结果,从而有助于使科学更加可靠。在过去十年的大部分时间里,他都在开创此类方法,例如用于从 DNA 预测生物地理学的地理种群结构 (GPS) 和用于改进基因测试和药物试验中使用的病例对照匹配的成对匹配器。
“提供这种灵活性的技术鼓励了糟糕的科学,并且在一个出版压力很大的世界里尤其危险。如果研究人员多次运行 PCA,则总是会倾向于选择能够产生最佳故事的输出”,来自剑桥大学的 William Amos 教授补充道,他没有参与这项研究。
参考:“基于主成分分析 (PCA) 的群体遗传研究结果存在高度偏见,必须重新评估”,Eran Elhaik,2022 年 8 月 29 日,科学报告。
DOI:10.1038/s41598-022-14395-4