最低信息标准是报告由高通量方法(例如基因组测序)生成的科学数据的指南和格式。他们确保所有数据集都以相同的方式构建,使世界各地的研究人员能够轻松查找、验证和分析数据。标准还提供数据集的背景信息,例如数据生成的时间、地点和方式,或者它们描述的物种。
公共分子数据库,例如EMBL管理的数据库,确保生成的数据可以一次又一次地重复使用,以提出新的研究问题,而不是将信息“隐藏”在各个实验室的服务器上。
这是一种捕获公共资助科学产生的数据的有效方法,使它们易于访问。在某种程度上,这类似于将纸堆变成书籍,并在公共图书馆对它们进行系统编目,以便任何人都可以访问它们。就像图书馆在知识共享中发挥作用一样,公共数据资源和最低信息标准使研究人员能够访问和使用自己实验室之外生成的数据。
怎样才是好的最小信息标准?
“你必须在可能性和实用性之间取得平衡,”EMBL-EBI高级团队负责人、首批发布的一些最低限度信息标准的合著者AlvisBrazma解释道。
“生成数据的人可能会说该标准需要太多信息,而分析数据的人会说这还不够。所以他们必须在中间的某个地方相遇。
“但重要的是,你需要尝试理解现在重新分析需要什么,并尝试预测将来可能需要什么。这不是一件容易的任务!根据我的经验,最好从最低限度开始,然后不断增加一旦社区参与进来,”Brazma说。
最低信息标准通常有两部分。首先,有一组报告要求——通常以表格或清单的形式呈现。其次,有一个约定的数据格式。有关实验的信息需要转换为适当的数据格式才能提交到相关数据库。
推动新方法的开发
标准化数据是开发新方法的关键。每一种生物信息学研究方法,无论是预测新的无序蛋白质、解释蛋白质修饰的影响,还是分析生物成像数据,都关键取决于用于训练方法的数据的可用性和明确性。
“最低限度的信息标准提供了将科学成果整合到不可知的‘大数据’结构中的背景,”EMBL汉堡的科学家兼小角散射生物数据库(SASBSB)的馆长CyJeffries说。“这意味着不同科学学科的结果可以链接在一起、重复使用和公开共享,以找到我们尚未想到但未来人工智能可能想到的新模式。”
“在人工智能时代,最低限度的信息标准和标准化数据库比以往任何时候都更加重要,因为它们向机器学习和人工智能算法开放了数据,”EMBL-EBI副主任JoMcEntyre解释道。“以AlphaFold为例,谷歌DeepMind的人工智能系统可以准确预测蛋白质结构。如果没有蛋白质数据库中数十年整理、注释的公共蛋白质结构和功能数据,AlphaFold的开发根本不可能实现。欧洲和UniProt。与许多研究方法一样,您得到的结果取决于您输入的数据。”
多种标准
EMBL的科学家和同事为不同数据类型的许多最小信息标准的开发做出了贡献。这些标准通常遵循技术的发展和可访问性的提高,从而导致产生的数据量的增加。
以下是科学界目前广泛使用的最小信息标准的一些示例:
MIAME—有关微阵列实验的最低信息:MIAME的历史可以追溯到2001年,是最早的数据标准之一。微阵列技术已在研究和临床研究中用于多种目的,包括测量基因表达和检测特定的DNA序列。
MIAPE——有关蛋白质组学实验的最低信息:为了鼓励蛋白质组学数据的标准化收集和传播,人类蛋白质组组织的蛋白质组学标准倡议开发了指导模块,用于报告凝胶电泳和质谱等技术的使用。
REMBI-推荐的生物图像元数据:于2021年开发,旨在实现生物学中显微镜数据的重用,这尤其重要,因为技术发展和生物成像可访问性的提高导致显微镜数据的增加。
MIADE—有关无序实验的最低信息:于2023年发布,以支持对不断改变形状的蛋白质的研究。所有已知蛋白质中约有三分之一被认为是无序的。
“社区咨询和认可是数据标准成功的关键,”EMBL-EBI蛋白质功能内容团队负责人SandraOrchard解释道。“该标准必须具有实用性,因此必须在全球范围内采用,并最好得到出版商和审稿人的支持。当然,研究数据的生成和公共共享需要被视为对科学的宝贵贡献,以及出版物等其他产出、软件工具的开发和知识共享。”
数据标准有助于利用生命科学中生成的大量数据。尽管向公共数据资源提交研究结果并遵守最低信息标准可能既耗时又繁重,但这是研究过程中的重要一步,可以帮助数据在论文发表后很长一段时间内保持有用。
毕竟,您可能不喜欢整理衣柜,但一旦完成,感觉会很好。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!