(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210983345.8
(22)申请日 2022.08.16
(71)申请人 杭州微数生物科技有限公司
地址 311100 浙江省杭州市萧 山区宁围街
道传化科创大厦1幢4楼
申请人 中国人民解 放军军事科学院军事医
学研究院
(72)发明人 王莹 朱力 徐荣 何陆平
王恒樑 王东澍 陈欢
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 林松海
(51)Int.Cl.
G16B 30/10(2019.01)
G06F 16/953(2019.01)G06F 16/2455(2019.01)
G06F 16/215(2019.01)
(54)发明名称
一种大肠杆菌多糖抗原结构数据库及其在
线分析平台
(57)摘要
本发明提供了一种大肠杆菌多糖抗原结构
数据库及其在线分析平台 (EcoSP) 。 通过汇总和
分析大肠杆菌各抗原分型与多糖抗原结构、 合成
基因簇、 多糖合成信息、 单糖合成通路、 菌株基因
组和菌株名称的对应关系, 构建了大肠杆菌多糖
抗原结构数据库。 并在数据库基础上, 开发了可
用于大肠杆菌多糖抗原信息检索和分型分析的
在线平台 (EcoSP) 。 EcoSP可快速浏览和检索大肠
杆菌多糖抗原结构数据, 包括186个O抗原分型和
68个K抗原分型的多糖结构和多糖、 单糖合成信
息, 同时可对提交的大肠杆菌基因组进行快速分
型分析, 对临床诊断、 微生物资源开发、 疫苗研发
和流行病学调查 等领域具有重要意 义。
权利要求书2页 说明书7页 附图5页
CN 115440301 A
2022.12.06
CN 115440301 A
1.一种大肠杆菌多糖抗原结构数据库, 其特 征在于, 构建的步骤如下:
S1 大肠杆菌高质量菌株 基因组获取和分析
S1‑1: 从公共数据库NCBI下 载所有已发表的大肠杆菌基因 组序列;
S1‑2: 对已下载的基因组进行评估分析, 包括基于基因组的菌种鉴定和基因组完整性、
污染率评估;
S1‑3: 过滤掉低质量、 命名错 误的大肠杆菌 菌株基因组, 筛选高质量菌株 基因组;
S1‑4: 对大肠杆菌高质量菌株 基因组进行分型和注释分析;
S2 大肠杆菌多糖抗原结构数据库 (E coSP‑Db) 构建
S2‑1 根据已发表的文献资料, 收集并校正大肠杆菌186个O抗原分型和68个K抗原分型
对应的多糖结构、 合成基因簇序列和基因功能信息;
S2‑2 根据文献资料, 收集并整合大肠杆菌O抗原和K抗原中的多糖合成信息, 包括供体
糖和受体 糖信息, 多糖重复单 元中关键基因糖 基转移酶和聚合酶;
S2‑3 绘制多糖抗原O单元结构图、 K单元结构图和合成基因簇功能结构图; 统一格式图
示化展示;
S2‑4 根据已发表文献资料, 收集并整合大肠杆菌多糖抗原中单糖合成通路39条, 并绘
制单糖合成通路图; 分步骤展示合成信息, 包括单糖合成反应序号、 合成关键基因、 反应前
体、 反应产物、 最终产物、 合成通路类型和通路图, 涉及156个单糖合成基因、 91条单糖反应
信息和26个单糖;
S2‑5 汇总254个抗原分型与对应的多糖结构、 合成基因簇功能结构、 多糖合成、 单糖合
成通路和S1中高质量菌株基因组映射关系, 构建大肠杆菌多糖抗原结构数据库(EcoSP ‑
Db)。
2.根据权利要求1所述的大肠杆菌多糖抗原结构数据库, 其特 征在于,
对下载的大肠杆菌基因组序列, 采用FastANI软件计算各下载基因组与大肠杆菌模式
菌株基因组的平均核苷酸相似性 (Average Nucleotide Identity, ANI) , 同时采用checkM
软件计算基因组完整性、 污染率和异质性, 采用Perl语言自编写程序计算基因组Contig或
Scaffold数目;
筛除与大肠杆菌模式菌株基因组间ANI值小于94%、 基因组片段数大于500个、 污染率大
于5%、 完整度小于85%, 或不包含多糖抗原合成基因簇的菌株基因组, 获得高质量大肠杆菌
基因组共计7741个。
3.根据权利要求1所述的大肠杆菌多糖抗原结构数据库, 其特 征在于,
获取文献发表的分型基因簇序列信息为分型数据库 (eco ‑TypeDb) , 采用P ython语言自
编写程序 (eco ‑TYPEtool) 进行O抗原分型和H抗原分型; 大肠杆菌基因组分型分析步骤如下
所示:
首先, 下载文献已发表的大肠杆菌各分型的O抗原和H抗原合成基因簇序列和注释信
息, 转换为可识别的大肠杆菌分型DNA参考序列和对应的蛋白序列, 构建eco ‑TypeDb数据
库;
其次, 采用Blast程序将基因组序列比对至大肠杆菌分型DNA参考序列, 基于序列相似
性和覆盖度阈值, 筛 选最佳匹配的DNA参 考序列;
再次, 采用tBlastn程序, 将待分型基因比对到分型参考基因序列中相应的蛋白序列,权 利 要 求 书 1/2 页
2
CN 115440301 A
2得到最佳匹配的基因信息;
最后, 根据以上匹配信息, 输出 大肠杆菌 菌株基因组的O:H抗原分型 结果表格;
获取已发表文献中的大肠杆菌糖基转移酶数据, 结合公共数据库NCBI、 MetaCYC
(https://metacyc.org/) 和GTDB (https://www.biosino.org/gtdb/) 的细菌糖基转移酶数
据, 构建注释数据库 (eco ‑GTdb) , 采用Prodig al软件对菌株基因组进行基因预测;
将预测基因采用Blastp软件比对到eco ‑GTdb数据库;
比对结果进行 过滤, 滤除相似性 (Identity) 小于85%、 e ‑Value大于1e‑7的比对结果。
4.根据权利要求1所述的大肠杆菌多糖抗原结构数据库, 其特 征在于,
采用CSDB/SFNG绘图工具对254个抗原分型进行多糖结构绘制, 绘制格式包括SPNG格
式、 化学结构式图和 CSDB线性结构格式, 并采用SVG矢量绘图方法, 在化学结构式图中添加
糖苷键对应的关键基因名称, 以统一格式、 图片展示多糖结构和合成信息;
基于文献和公共数据库下载的合成基因簇序列和注释信息, 采用SVG方法绘制合成基
因簇结构图, 展示各基因功能分类;
溯源最初文献报道, 逐一核对现有发表的多糖结构和合成基因簇信息, 包括校正O63抗
原合成基因簇信息引用问题。
5.根据权利要求1所述的大肠杆菌多糖抗原结构数据库, 其特 征在于,
根据文献信息, 汇总各抗原分型中大肠杆菌表面多糖合成信息, 建立大肠杆菌多糖合
成关键酶基因糖基转移酶和聚合酶、 供体糖、 受体糖、 糖苷键类型和抗原分型、 菌株基因组
之间的映射关系。
6.一种大肠杆菌多糖抗原结构在线分析平台, 其特 征在于, 构建的步骤如下:
S6‑1 构建抗原分型浏览模块, 可选择或检索血清型名称, 查看多糖抗原结构信息和对
应的菌株信息;
S6‑2 构建抗原分型检索模块, 可选择输入已发表的菌株名称或菌株基因组序列号
(NCBI) 进行检索, 反馈用户相应的大肠杆菌多糖抗原分型和结构信息, 或选择输入抗原分
型, 将反馈用户相应的准备 结构信息;
S6‑3 构建大肠杆菌抗原多糖合成信息检索模块, 可通过输入分型、 关键基因名称、 糖
苷键、 糖基供体、 糖 基受体、 糖苷键类型, 检索多糖抗原合成信息;
S6‑4 构建大肠杆菌单糖合成通路检索模块, 可输入关键词, 检索到其对应的合成步骤
信息、 抗原分型和菌株名称;
S6‑5 构建大肠杆菌数据上传模块和分析模块, 基于eco ‑Type、 eco ‑GTdb数据库和自编
写流程, 对用户提交的大肠杆菌基因 组序列进行分型和功能注释分析;
步骤S6‑1、 S6‑2、 S6‑3和S6‑4中的模块构建, 均依托权利要求1中的大肠杆菌多糖抗原
结构数据库 (E coSP‑Db) 。
7.根据权利要求6所述的在线平台, 其特征在于, 用户可通过浏 览器直接浏览或检索大
肠杆菌各分型中O单元和K单元结构信息, 同时可检索大肠杆菌 O抗原和K抗原的多糖合成信
息和单糖合成通路。
8.根据权利要求6所述的在线平台, 其特征在于, 用户提交大肠杆菌基因组, 在数分钟
内返回大肠杆菌抗原分型 结果。权 利 要 求 书 2/2 页
3
CN 115440301 A
3
专利 一种大肠杆菌多糖抗原结构数据库及其在线分析平台
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:15:03上传分享