imeta-南方医科大学余光创组开发的用于系统发育树及相关数据存储与可视化的数据结构.docxVIP

imeta-南方医科大学余光创组开发的用于系统发育树及相关数据存储与可视化的数据结构.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

iMeta:南方医科大学余光创组开发的用于系统发育树及相关数据存储与可视化的数据结构

Ggtree:用于系统发育树及相关数据存储与可视化的数据结构

Ggtree:aserializeddataobjectforvisualizationofaphylogenetictreeandannotationdata

ShortCommunication

DOI:/10.1002/imt2.56

发表时间:2022年9月28日

第一作者:ShuangbinXu(徐双斌)

通讯作者:GuangChuangYu(余光创)gcyu1@

合作作者:LinLi(李林);XiaoLuo(罗晓);MeijunChen(陈玫君);WenliTang(唐文丽);LiZhan(詹历);ZehanDai(戴泽翰);TommyT.Lam(林讚育),YiGuan(管轶)

主要单位:

南方医科大学基础医学院生物信息学系

香港大学公共卫生学院新发传染病国家重点实验室

汕头大学病毒学联合研究所

亮点

系统发育树与形式多样的相关数据可以存储在同一个ggtree图形对象中从而提高了系统发育数据的可重复性与可重用性。

系统发育树与相关数据可以从ggtree对象中提取出来,并重新分析以辅助各个学科进行系统发育信息的综合比较研究。

Ggtree图形对象可以被渲染成静态图像,并且保存在该对象中的可视化指令可以类似于MicrosoftWord格式刷操作对不同的树对象进行可视化。

摘要

尽管系统发育树与相关数据已越来越容易生成,但是对它们进行重复使用,组合以及比较仍是困难的。因为当前系统发育树通常是以图片形式进行发布,而且相关数据的存储形式往往也互不兼容。为了提高系统发育数据的可重复性与可重用性,我们设计了ggtree对象用于存储系统发育树,相关数据以及可视化指令。ggtree对象本身是一个图形对象,一方面其可以渲染成静态图像,更重要的是,可视化中的系统发育树与相关数据可以从该图形对象中提取出来,使得ggtree能够成为发布系统发育树(图像、树与数据在一个对象中)的理想数据结构,从而增强数据的重用性,分析的可重复性以及促进综合和比较研究。

引言

系统发育数据具有重要的再利用潜力,因为系统发育正成为生态学、进化生物学、流行病学与分子生物学等研究的主要内容之一。对于系统发育数据的重新利用有助于在许多学科中对系统发育信息进行综合比较分析。然而,之前的一项调查表明,大约60%的已发表系统发育数据在科学社区中已永远丢失。造成这一情况的原因之一是系统发育数据的发表共享通常是以静态图像为主,缺乏可互通的共享文件。将相关数据(如分类信息,元数据、表现数据或者流行病学数据)注释到系统发育树图上是一种常用操作。尽管用于系统发育树的可视化以及注释的工具正在逐渐增加,但是这些工具的目的仍然是为了生成可发表的系统发育树图,其中还涉及选择注释数据(如bootstrap值)并将其注释到系统发育树上(比如作为文本标签或者分支颜色)。而这一过程也往往是单向无法逆转地产生一个静态图形,使得一些基础信息无法重用。我们需要从这种生成静态图形的单向目的转换成系统发育树,相关数据以及可视化指令组成的统一数据对象又可渲染成可视化图形的模式。

结果

用于管理和存储系统发育树以及相关数据的图形对象

在这里,我们提出了一个数据结构,即ggtree对象,定义在ggtree软件包中。Ggtree软件包是一个可用于系统发育树以及各种相关数据的可视化注释的R/Bioconductor软件包。我们之前提出了两种方法将相关数据映射并可视化到系统发育树上。分类单元相关数据可以通过%<+%运算符链接到ggtree对象内的树结构,复杂的相关数据可以使用facet_plot或者geom_facet功能在独立的面板中通过特定的几何图层在与树结构对齐的基础上进行可视化。使用这两种方法映射与可视化的相关数据均被保存在ggtree对象中,且可以被提取出来。如图1所示,我们使用%<+%操作符将相关数据添加到系统发育树上,然后将后验概率值(posteriorvalues)映射到系统发育树上的圆点用颜色深浅表示(图1A)。输出的结果为ggtree对象,其是一个可以被渲染成静态图形的图形对象(图1B)。该对象保留了系统发育树的信息以及相关数据(图1C)。用户可以将此图形对象转换为phylo(只有系统发育树结构没有注释数据)或者treedata(既有系统发育树结构又有数据)树对象。树对象可以使用tidytree或者treeio软件包进行进一步处理,并且也可以导出为Newick、Nexus或者BEASTNexus,从而可以将相关数据存储为带注释的元素。ggtree图形对象还包含可视化指

文档评论(0)

sis36 + 关注
实名认证
文档贡献者

大数据工程师持证人

本人从事所爱好的软件研发职业,所选文档部分是选自于网络,之所以选这些文档是因为我很欣赏你的思维和才华,特此给我们大家以分享和学习的机会。如果你感觉侵犯了你的利益,请和我联系,我会尽快的删除!谢谢!

领域认证该用户于2024年03月25日上传了大数据工程师

1亿VIP精品文档

相关文档