书
书
书犐犆犛
35
.
240
.
01
犔
70
/G21 /G22 /G23 /G24 /G25 /G26 /G27 /G27 /G28 /G29 /G2A
犌犅
/
犜
36338
—
2018
/G21 /G22 /G23 /G24 /G25 /G26 /G27 /G27 /G28 /G27 /G29 /G21 /G22 /G2A /G2B /G2C /G2D
犛狆犲犮犻犳犻犮犪狋犻狅狀狅狀犜犻犫犲狋犪狀犾犻狋犲狉犪狋狌狉犲狋犲狓狋犿犪狉犽狌狆犳狅狉犻狀犳狅狉犿犪狋犻狅狀狆狉狅犮犲狊狊犻狀犵
2018
06
07
/G2E /G2F
2019
01
01
/G30 /G31
/G27 /G28 /G2B /G2C /G2D /G2E /G2F /G30 /G31 /G32
/G21 /G27 /G27 /G28 /G29 /G2A /G33 /G2F /G30 /G34 /G35 /G36
/G2E /G2F目
次
前言
Ⅰ
…………………………………………………………………………………………………………
1
范围
1
………………………………………………………………………………………………………
2
规范性引用文件
1
…………………………………………………………………………………………
3
术语和定义
1
………………………………………………………………………………………………
4
藏文文献的标记框架
1
……………………………………………………………………………………
5
藏文文献文本基本属性的标记
2
…………………………………………………………………………
6
藏文文献文本结构信息的标记
4
…………………………………………………………………………
7
藏文文献文本标记规范
8
…………………………………………………………………………………
附录
A
(
资料性附录
)
《
更敦群培文集
》
的
TEI
标记范例
18
……………………………………………
犌犅
/
犜
36338
—
2018
前
言
本标准按照
GB
/
T1.1
—
2009
给出的规则起草
。
请注意本文件的某些内容可能涉及专利
。
本文件的发布机构不承担识别这些专利的责任
。
本标准由全国信息技术标准化技术委员会
(
SAC
/
TC28
)
提出并归口
。
本标准起草单位
:
中国电子技术标准化研究院
、
西北民族大学
、
西藏自治区藏语文工作委员会办公室
、
西藏大学
,
青海师范大学
、
西藏自治区工业与信息化厅
、
中国标准化研究院
、
中国科学院软件研究所
、
青海民族大学
、
中国藏学研究中心
、
民族出版社
、
北京北大方正电子有限公司
、
潍坊北大青鸟华光照排有限公司
。
本标准主要起草人
:
多拉
、
扎西加
、
熊涛
、
尼玛才让
、
杨本加
、
多杰卓玛
、
索南才让
、
冷本扎西
、
刘汇丹
、
仁青卓么
、
项见措
、
格桑多吉
、
黄鹤鸣
、
才让加
。
Ⅰ
犌犅
/
犜
36338
—
2018
信息处理用藏文文献文本信息标记规范
1
范围
本标准规定了藏文数字文献的文本信息标记
。
本标准适用于藏文语料库建设及藏文各种文献的数字化标记
。
2
规范性引用文件
下列文件对于本文件的应用是必不可少的
。
凡是注日期的引用文件
,
仅注日期的版本适用于本文件
。
凡是不注日期的引用文件
,
其最新版本
(
包括所有的修改单
)
适用于本文件
。
GB
/
T14814
—
1993
信息处理
文本和办公系统
标准通用置标语言
(
SGML
)
3
术语和定义
下列术语和定义适用于本文件
。
3
.
1
藏文文献
犜犻犫犲狋犪狀犾犻狋犲狉犪狋狌狉犲
由藏文
(
包括古藏文及梵文转写
)
构成的各种文献
。
3
.
2
文本置标语言
狋犲狓狋犲狀犮狅犱犻狀犵犻狀犻狋犻犪狋犻狏犲
;
犜犈犐
一种定义电子文档结构和描述其内容的国际标准语言
。
注
1
:
目前在信息处理界电子图书馆相关计划中普遍使用的置标语言
,
适用于对电子形式的全文的编码和描述
。
注
2
:
TEI
元数据标准同时也规定了可供数据交换的标准编码格式
,
采用
SGML
文件格式
。
3
.
3
班智达
犅犪狀狋犻狋犪
梵语
,
意为学识渊博的学者
,
专指参与经典翻译的印度等地学者
。
注
:
班智达和译师分为藏文文献厘定前与厘定后两种
。
4
藏文文献的标记框架
TEI
适用于对电子形式的全文的编码和描述
。
TEI
元数据标准同时也规定了可供数据交换的标准编码格式
,
使用
GB
/
T14814
—
1993
规定的
SGML
作为其编码语言
。
TEI
格式具有很大限度的灵活性
、
综合性
、
可扩展性
,
能支持对各种类型或特征的文档进行编码
。
TEI
元数据标记可以对语料库的文本属性信息与文本结构信息进行规范的标记
。
TEI
文档
,
也是一个
SGML
文档
,
一般有四个部分
:
teiHeader
(
题名
),
front
(
文本前的信息
),
body
(
正文
),
back
(
文本后的信息
)。
TeiHeader
:
对电子文本对象的描述
。
front
:
对正文前的信息描述
,
包含位于文件最前端的项目
(
标头
、
题名页
、
前言
、
献词等
。)。
body
:
对正文信息的描述
,
单篇文章的整体部分
,
不包含正文前及正文后信息
。
back
:
对正文后的信息描述
,
包含附录等
。
TEI
标头的第一层可以包含
〈
fileDesc
〉
文档描述
、〈
encodingDesc
〉
编码描述
、〈
profileDesc
〉
文件背
1
犌犅
/
犜
36338
—
2018
景描述
、〈
revisionDesc
〉
修订描述四个区段
,
其中只有第一个
[〈
fileDesc
〉(
文档描述
)]
是必要元素
。
〈
fileDesc
〉
可以包含七个子元素
:〈
titleStmt
〉(
题名描述
)、〈
editionStmt
〉(
版本描述
)、〈
extent
〉(
档案大小
)、〈
publicationStmt
〉(
出版描述
)、〈
seriesStmt
〉(
从编描述
)、〈
notesStmt
〉(
附注描述
)
及
〈
sourceDesc
〉(
来源描述
)。
其中
,
只有
〈
titleStmt
〉(
题名描述
)、〈
publicationStmt
〉(
出版描述
)
及
〈
sourceDesc
〉(
来源描述
)
是必要元素
。
因此最小的
TEI
标头只包含
〈
fileDesc
〉。
在这个
〈
fileDesc
〉
中
,
依次包含
〈
titleStmt
〉、〈
publicationStmt
〉
和
〈
sourceDesc
〉。
藏文
TEI
标记范例参见附录
A
。
根据以上规范
,
tei
标记的整体架构可以表示如下
:
〈
tei
〉
〈
teiheader
〉
〈
fileDesc
〉
文档描述
〈/
fileDesc
〉
〈
encodingDesc
〉
编码描述
〈/
encodingDesc
〉
〈
profileDesc
〉
文件背景描述
〈/
profileDesc
〉
〈
revisionDesc
〉
修订描述
〈/
revisionDesc
〉
〈/
teiheader
〉
〈
text
〉
〈
front
〉
正文前的信息描述
〈/
front
〉
〈
body
〉
正文信息描述
〈/
body
〉
〈
back
〉
正文后的信息描述
〈/
back
〉
〈/
text
〉
〈/
tei
〉
5
藏文文献文本基本属性的标记
TEI
元数据标准规定了描述文本的书目信息所需要的标记
,
主要在
fileDesc
部分
,
有
6
个复合元素
;
在此
6
种元素的基础上
,
为了便于对语料搜索和统计
,
自定义了语料的标题
、
作者
、
来源
、
领域
、
体裁
、
语言层次
、
文类
、
语式
、
年代
、
译者
、
编者
、
本次
、
版本
、
出版
、
日期
、
语言
、
国家
、
性别
、
年代
、
创作时间
、
记录者等
18
项属性信息
。
5
.
1
标题属性信息
文本标题信息用
TEI
标记为
〈
title
〉…〈/
title
〉。
示例
:“
”,
可以标记为
〈
title
〉
〈/
title
〉。
5
.
2
作者属性信息
作者信息用
TEI
标记为
〈
author
〉…〈/
author
〉,
文本作者可以是个人或机构
,
如果无作者此项可以不填
。
示例
:“
”
或
“
”
都可以标记为
〈
author
〉
〈/
author
〉
或
〈
author
〉
〈/
author
〉。
5
.
3
来源属性信息
文本来源信息用
TEI
标记为
〈
source
〉…〈/
source
〉,
来源可以是报纸
、
期刊
、
书籍等
,
若来源不详此栏可以不填
。
示例
:“
”、“
”、“
”
等可以标记为
〈
source
〉
2
犌犅
/
犜
36338
—
2018
〈/
source
〉、〈
source
〉
〈/
source
〉、〈
source
〉
〈/
source
〉。
5
.
4
领域属性信息
文本领域信息用
TEI
标记为
〈
field
〉…〈/
field
〉。
GB-T 36338-2018 信息处理用藏文文献文本信息标记规范
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-17 23:28:26上传分享