CN102708206A - 一种数据格式的描述方法 - Google Patents
文章推薦指數: 80 %
本发明公开一种数据格式的描述方法,属于计算机和信息技术领域。
针对计算机数据交换与共享过程中,数据格式多样、异构的问题,克服现有数据格式描述方法对格式细节描述 ...
CN102708206A-一种数据格式的描述方法
-GooglePatents
一种数据格式的描述方法
DownloadPDF
Info
Publicationnumber
CN102708206A
CN102708206A
CN2012101599001A
CN201210159900A
CN102708206A
CN102708206A
CN102708206A
CN102708206A
CN2012101599001A
CN2012101599001A
CN2012101599001A
CN201210159900A
CN201210159900A
CN201210159900A
CN102708206A
CN102708206A
CN102708206A
Authority
CN
China
Priorartkeywords
data
layout
type
separator
describe
Priorartdate
2012-05-21
Legalstatus(Thelegalstatusisanassumptionandisnotalegalconclusion.Googlehasnotperformedalegalanalysisandmakesnorepresentationastotheaccuracyofthestatuslisted.)
Granted
Applicationnumber
CN2012101599001A
Otherlanguages
English(en)
Otherversions
CN102708206B
(zh
Inventor
闾国年
胡迪
温永宁
盛业华
CurrentAssignee(Thelistedassigneesmaybeinaccurate.Googlehasnotperformedalegalanalysisandmakesnorepresentationorwarrantyastotheaccuracyofthelist.)
NanjingPanzhiGeographicInformationIndustryResearchInstituteCo.,Ltd.
OriginalAssignee
NanjingNormalUniversity
Prioritydate(Theprioritydateisanassumptionandisnotalegalconclusion.Googlehasnotperformedalegalanalysisandmakesnorepresentationastotheaccuracyofthedatelisted.)
2012-05-21
Filingdate
2012-05-21
Publicationdate
2012-10-03
2012-05-21
ApplicationfiledbyNanjingNormalUniversity
filed
Critical
NanjingNormalUniversity
2012-05-21
PrioritytoCN201210159900.1A
priority
Critical
patent/CN102708206B/zh
2012-10-03
PublicationofCN102708206A
publication
Critical
patent/CN102708206A/zh
2015-08-05
Applicationgranted
granted
Critical
2015-08-05
PublicationofCN102708206B
publication
Critical
patent/CN102708206B/zh
Status
Active
legal-status
Critical
Current
2032-05-21
Anticipatedexpiration
legal-status
Critical
Links
Espacenet
GlobalDossier
Discuss
238000000034
method
Methods
0.000
claims
abstract
description
9
230000003252
repetitive
Effects
0.000
claims
description
4
230000000875
corresponding
Effects
0.000
claims
description
2
239000004615
ingredient
Substances
0.000
claims
description
2
241001439061
Cocksfootstreakvirus
Species
0.000
claims
1
238000005516
engineeringprocess
Methods
0.000
abstract
description
3
238000010586
diagram
Methods
0.000
description
2
230000001131
transforming
Effects
0.000
description
2
230000002950
deficient
Effects
0.000
description
1
230000004301
lightadaptation
Effects
0.000
description
1
239000000203
mixture
Substances
0.000
description
1
Abstract
本发明公开一种数据格式的描述方法,属于计算机和信息技术领域。
针对计算机数据交换与共享过程中,数据格式多样、异构的问题,克服现有数据格式描述方法对格式细节描述能力不足的缺陷,本发明提出一种新的数据格式描述方法,该方法以数据位置为中心,以数据类型和分隔符为核心,对数据的类型、结构和布局等格式信息进行统一描述,生成数据格式标记文档。
本发明主要用于计算机数据交换与共享,提高了计算机软件与数据、数据与格式的独立性,解决了数据格式的描述问题。
Description
一种数据格式的描述方法
技术领域
[0001] 本发明属于计算机和信息技术领域,特别涉及一种数据格式的描述方法。
背景技术
[0002] 数据格式问题自计算机诞生时就产生了。
在计算机数据交换与共享过程中,解决数据格式问题的方法主要有标准格式转换法和数据格式描述法两种。
标准格式转换法是人为的规定ー种适应较广的数据格式作为标准格式,強制数据以标准格式存储,并将其他数据格式的数据转换为标准格式。
该方法强调数据与软件的可移植性、数据文件内容组织的灵活性,具有一定的灵活性和可扩展性,缺点在于任何一种标准格式都不可能对所有类型的数据通用、标准格式往往较为复杂。
数据格式描述法采用描述机制直接对各种数据格式进行描述。
该方法无需进行数据格式转换,只需采用数据描述语言对数据进行描述,可扩展性强。
目前,已经有ASN-I、EAST、ODL、FREEFORM、DFDL等多种数据格式描述语言的方案,并得到了一定的应用,但是这些数据格式描述语言本质上都以数据为中心的描述方法,存在数据格式的描述能力不足的问题。
因此,本发明提出ー种新的数据格式描述的方法,以数据位置为中心,以数据类型和分隔符为核心,对数据的类型、结构和布局等格式信息进行统一描述。
发明内容
[0003] 为了解决数据交換与共享过程中,数据格式多祥、异构的问题,克服标准格式复杂、不可能适用于所有数据格式的缺点,针对现有的数据格式描述语言以数据为核心,格式的描述依附于数据,而难以描述数据格式的细微特征的缺陷,本发明的目的是提供一种数据格式的描述方法,能够对各种数据格式进行描述,解决了数据交换与共享过程中的数据格式问题。
[0004] 本发明解决其技术问题所采用的技术方案是:
[0005] 一种数据格式的描述方法,包括以下步骤:
[0006] (I)从数据格式的文字说明或数据中获取数据格式信息;
[0007] (2)采用数据格式标记语言对数据格式信息进行统ー描述;
[0008] (3)生成数据格式标记文档。
[0009] 数据格式信息包括数据的数据类型、结构和布局信息;数据类型信息是指具有某些共同格式特征的数据的统称;结构信息是指数据的有规律的重复排列;布局信息是指数据和分隔符的位置或位置范围,两者之间的排列关系;
[0010] 数据格式标记语言采用标记元素对数据格式信息进行描述,标记元素包括根元素(dfml)、导入元素(import)、位置元素(location)、数据类型元素、分隔符元素和组元素(group)6大类元素;
[0011] 根元素(dfml)用于描述数据格式的基本信息;主要属性有name、namespace、version和moae;[0012] 导入元素(import)用于将其他数据格式标记文档中定义的元素导入当前文档中,使得当前文档可以引用其他文档中定义好的元素;只有一个必选的link属性;
[0013] 位置元素(location)用于描述数据项在数据中的位置或位置范围;主要属性有name和value;
[0014] 数据类型元素用于描述数据项的类型和格式信息,包括综合数据类型元素(datatype)和基本数据类型兀素(string、integer、real、boolean、date、time、datetime和path),王要属性有name、type、value、format、default、domain、number、separator、和location,只有综合数据类型元素具有type和value属性;综合数据类型元素用于描述任何数据项的类型和格式信息,同时提供数据类型的可扩展性;基本数据类型元素用于描述某类具体的数据项的类型和格式信息;
[0015] 分隔符元素用于描述数据项的分隔符类型和格式信息,包括综合分隔符元素(separator)和基本分隔符兀素(space、tab、comma>semicolon、cr和br),主要属性有name、type、value、number和location,只有综合分隔符兀素具有type和value属性;综合分隔符元素用于描述所有数据项的分隔符类型和格式信息;基本分隔符元素用于描述某类具体的数据项的分隔符类型和格式信息;
[0016] 组元素(group)将若干个元素归为ー组,通过元素的组合来描述数据的结构信息,主要属性有name、location和number。
[0017] 采用数据格式标记语言对数据格式信息进行描述的过程,包括以下步骤:
[0018] (I)新建数据格式标记文档;
[0019] (2)添加根兀素dfml,设置其name、namespace和mode属性描述数据格式的名称、标识符和模式信息;
[0020] (3)根据数据格式的结构信息,将其划分为若干个组成部分,确定每一部分的名称和位置范围;
[0021] (4)采用group元素描述姆一部分,设置其name和location属性描述姆一部分的名称和位置范围;
[0022] (5)对每一部分,识别其布局信息,包括每个数据项的数据类型或分隔符类型、起始位置和结束位置、数据类型的表现格式;
[0023] (6)判断每ー部分的布局信息是否存在有规律的重复结构,如果存在,则将其归结为部分中的部分;
[0024] (7)根据步骤(5)和(6)中的结构和布局信息,采用组元素、数据类型元素和分隔符元依次描述各数据项;当部分中含有部分吋,采用组元素内部嵌套组元素的方式进行描述;当数据项为数据时,可以使用基本数据类型元素,也可以使用综合数据类型元素进行描述;使用基本数据类型元素进行描述可以使数据格式标记文档在内容上更加清楚、直观;使用综合数据类型元素进行描述可以使数据格式标记文档在形式上显得整齐、一致;数据类型的表现格式通过format属性来描述,format属性值的格式如表I所示。
[0025] 表I数据类型元素的format属性值的格式
[0026]、
[0027] 当数据项为分隔符时,可以使用基本分隔符元素,也可以使用综合分隔符元素描述;使用基本分隔符元素进行描述可以使数据格式标记文档在内容上更加清楚、直观;使用综合分隔符元素进行描述可以使数据格式标记文档在形式上显得整齐、一致;对于不能用基本分隔符元素描述的分隔符,使用综合分隔符元素进行描述。
[0028] 生成数据格式标记文档之前对其进行语法检查,使其符合XML文档的基本语法,同时满足数据格式标记语言的语法,包括:
[0029] (I)数据格式标记文档有且仅有ー个根元素(dfml);dfml元素的mode属性的取值范围为{“char”,“byte”}。
当mode=“char”时,表示字符模式,数据项的位置以字符为单位;当mode=“byte”时,表示字节模式时,数据项的位置以字节为单位;
[0030] (2)import元素必须是dfml元素的直接子元素,link属性的取值可以是本地位置,也可以是网络位置;
[0031] (3)location元素的value的取值与dfml元素的mode属性相对应;当dfml元素的mode属性为“char”时,location元素的value属性的取值为起始行、起始列、结束行和结束列的字符位置,格式为value=“起始行号起始列号,结束行号结束列号”;当dfml元素的mode属性为“byte”即字符模式时,location元素的value属性的取值为起始字节、结束字节的位置,格式为value=“起始字节,结束字节”。
[0032] 对于字符模式的位置描述,有以下特殊位置的表示方法:
[0033] ①某一行的起始列位置为I;
[0034] ②某一行的结束列位置为-I;
[0035] ③“00”表示未知位置,常用作占位符;如果只关心数据项的起始位置或结束位置时,则可以将location元素中的结束或起始位置的行号、列号设置为“00”;
[0036] ④表示文件结束位置,常用作表示从某一位置开始至文件结尾。
[0037] 对于字节模式的位置描述,字节位置从I开始编码。
[0038] (4)group元素可以嵌套group元素、数据类型元素和分隔符元素,最外层的group元素必须是dfml元素的直接子元素。
在对数据格式信息进行描述时,将数据格式划分为若干个部分,每一部分分别采用group元素进行描述。
若部分之间无明显的界线,一般文本数据以行为单位划分为若干部分,ニ进制数据以字节为单位划分为若干部分;也可以不进行部分划分,直接采用数据类型和分隔符元素进行描述,则生成的数据格式标记文档不具有层次结构。
[0039] 本发明ー种数据格式的描述方法,广泛适用于各种数据格式的描述,采用数据格式标记语言对数据格式信息进行描述,生成统ー的数据格式标记文档,使得数据与格式互相独立。
附图说明
[0040] 图I为本发明一种数据格式的描述方法的核心步骤流程图。
[0041] 图2为采用数据格式标记语言对数据格式信息进行描述的详细步骤流程图。
具体实施方式
[0042] 下面对本发明实例中的技术方案进行清楚、完整的描述。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043] 本发明提供一种数据格式的描述方法,具体实施时,针对某一具体的数据格式,采用数据格式标记语言对其进行描述,生成数据格式标记文档。
[0044] 具体实施步骤包括:
[0045] I、从数据格式的文字说明或数据中获取数据格式信息
[0046] 本实施例以DCBAH水文气象数据为例,该水文气象数据的文件格式说明如下:
[0047] 表2某水文气象数据文件的格式说明
[0048]
[0049] 示例文件JKSlrData.txt的内容如下:
[0050]
[0051] 该数据格式的名称为DCBAH气象水文数据格式,模式为字符模式,包括描述行和数据行两部分。
描述行位于第I行,由若干个字符串组成,数据之间以制表符进行分隔;数据行从第2行开始至文件结束,由一个日期类型和若干个双精度浮点类型的据组成,数据之间以制表符进行分隔,日期类型的分隔符为
[0052] 2、采用数据格式标记语言对数据格式信息进行统ー描述
[0053] (I)新建数据格式标记文档“DCBAH气象水文数据格式•xml”;
[0054] (2)添加根兀素dfml,name属性设置为“DCBAH气象水文数据格式”,namespace属性设置为“com.vge.DCBAH”,mode属性设置为“char”;
[0055] (3)根据数据格式的说明及示例数据,该数据格式可划分为两部分。
第一部分为描述行,位于第I行;第二部分为数据行,位置范围为从第2行至文件结束。
[0056] (4)在根元素dfml下,添加两个group元素,设置第一个group元素的name属性为“描述行”,location属性为“II,1-1”;设置第一个group元素的name属性为“数据行”,location属性为“21,-1_1”。
[0057] (5)对每一部分,识别其布局信息。
在描述行内部,由若干个字符串组成,数据之间以制表符进行分隔;在数据行内部,由若干个行组成,每一行由一个日期类型和若干个双精度浮点类型的数据组成,数据之间以制表符进行分隔,日期类型的分隔符为
[0058] (6)判断每ー部分的布局信息是否存在有规律的重复结构。
数据行部分中的布局信息中,每一行的布局都相同数据类型和分隔符的排列,是重复结构,将其归结为数据行部分中部分。
[0059] (7)根据步骤(5)和(6)中的结构和布局信息,采用组元素、数据类型元素和分隔符元依次描述各数据项。
[0060] 在name属性为“描述行”的group元素内部依次添加string、tab、string和cr元素;
[0061] 第一个string兀素,设置其value属性为“DATE”,description属性为“日期”;
[0062]第二个 string元素,设置其value属性为“DATASET1DATASET2
[0063] DATASET3...,,,number属性为“unknown,,,separator属性为“tab,,,description属性为“站点I数据站点2数据站点3数据...”;
[0064] 在name属性为“数据行”的group元素内部添加ー个group元素,设置其number属性为“unkown”,在该group元素内部依次添加date、tab、real和cr元素;
[0065] 设置date兀素的format属性为“xxxx-xx-xx”;设置real兀素的number属性为“unknown,,,separator属性为“tab”。
Claims(6)
1. 一种数据格式的描述方法,其特征在于,包括以下步骤:(1)从数据格式的文字说明或数据中获取数据格式信息;(2)采用数据格式标记语言对数据格式信息进行统ー描述;(3)生成数据格式标记文档。
2.根据权利要求I所述的ー种数据格式的描述方法,其特征在于:所述步骤(I)中,数据格式信息包括数据的数据类型、结构和布局信息。
3.根据权利要求I所述的ー种数据格式的描述方法,其特征在于:所述步骤(2)中,数据格式标记语言采用标记元素对数据格式信息进行描述,标记元素包括根元素、导入元素、位置元素、数据类型元素、分隔符元素和组元素;其中,数据类型元素包括综合数据类型元素和基本数据类型元素;分隔符元素包括综合分隔符元素和基本分隔符元素。
4.根据权利要求3所述的ー种数据格式的描述方法,其特征在于:所述基本数据类型元素包括字符串类型、整数类型、实数类型、布尔类型、日期类型、时间类型、日期时间类型和路径类型;所述基本分隔符元素包括空格分隔符、制表符分隔符、逗号分隔符、分号分隔符、换行分隔符和空行分隔符。
5.根据权利要求1、3或4所述的ー种数据格式的描述方法,其特征在于:所述采用数据格式标记语言对数据格式信息进行描述的过程包括以下步骤:(1)新建数据格式标记文档;(2)添加根元素,设置其名称、命名空间和模式属性来描述数据格式的名称、标识符和模式信息;(3)根据数据格式的结构信息,将其划分为若干个组成部分,确定每一部分的名称和位置范围;(4)采用组元素描述每一部分,设置其名称和位置属性来描述每一部分的名称和位置范围;(5)对每一部分,识别其布局信息,包括每个数据项的数据类型或分隔符类型、起始位置和结束位置、数据类型的表现格式;(6)判断每ー部分的布局信息是否存在有规律的重复结构,如果存在,则将其归结为部分中的部分,构成部分的内部结构;(7)根据步骤(5)和(6)中的结构和布局信息,采用组元素、数据类型元素和分隔符元依次描述各数据项;当部分中含有部分吋,采用组元素内部嵌套组元素的方式进行描述;当数据项为数据时,使用基本数据类型元素或者使用综合数据类型元素进行描述,数据类型的表现格式通过格式属性来描述;当数据项为分隔符时,使用基本分隔符元素或者使用综合分隔符元素进行描述。
6.根据权利要求I所述的ー种数据格式的描述方法,其特征在于:在所述步骤(3)生成数据格式标记文档之前对其进行语法检查,使其符合XML文档的基本语法,同时满足数据格式标记语言的语法,包括以下要求:(1)数据格式标记文档有且仅有ー个根元素;(2)导入元素必须是所述根元素的直接子元素;(3)位置元素的value属性的值与所述根元素的mode属性的值相对应;(4)组元素可以嵌套组元素、数据类型元素和分隔符元素,最外层的组元素必须是所述根元素的直接子元素。
CN201210159900.1A
2012-05-21
2012-05-21
一种数据格式的描述方法
Active
CN102708206B
(zh)
PriorityApplications(1)
ApplicationNumber
PriorityDate
FilingDate
Title
CN201210159900.1A
CN102708206B
(zh)
2012-05-21
2012-05-21
一种数据格式的描述方法
ApplicationsClaimingPriority(1)
ApplicationNumber
PriorityDate
FilingDate
Title
CN201210159900.1A
CN102708206B
(zh)
2012-05-21
2012-05-21
一种数据格式的描述方法
Publications(2)
PublicationNumber
PublicationDate
CN102708206A
true
CN102708206A
(zh)
2012-10-03
CN102708206B
CN102708206B
(zh)
2015-08-05
Family
ID=46900972
FamilyApplications(1)
ApplicationNumber
Title
PriorityDate
FilingDate
CN201210159900.1A
Active
CN102708206B
(zh)
2012-05-21
2012-05-21
一种数据格式的描述方法
CountryStatus(1)
Country
Link
CN
(1)
CN102708206B
(zh)
CitedBy(2)
*Citedbyexaminer,†Citedbythirdparty
Publicationnumber
Prioritydate
Publicationdate
Assignee
Title
CN108231130A
(zh)
*
2016-12-15
2018-06-29
北京兆易创新科技股份有限公司
一种eMMC测试方法及装置
CN109671149A
(zh)
*
2018-12-03
2019-04-23
南京师范大学
基于dem的地形素描图自动绘制方法
Citations(1)
*Citedbyexaminer,†Citedbythirdparty
Publicationnumber
Prioritydate
Publicationdate
Assignee
Title
CN1687926A
(zh)
*
2005-04-18
2005-10-26
福州大学
一种基于xml的pdf文档信息抽取系统的方法
2012
2012-05-21
CN
CN201210159900.1A
patent/CN102708206B/zh
active
Active
PatentCitations(1)
*Citedbyexaminer,†Citedbythirdparty
Publicationnumber
Prioritydate
Publicationdate
Assignee
Title
CN1687926A
(zh)
*
2005-04-18
2005-10-26
福州大学
一种基于xml的pdf文档信息抽取系统的方法
CitedBy(2)
*Citedbyexaminer,†Citedbythirdparty
Publicationnumber
Prioritydate
Publicationdate
Assignee
Title
CN108231130A
(zh)
*
2016-12-15
2018-06-29
北京兆易创新科技股份有限公司
一种eMMC测试方法及装置
CN109671149A
(zh)
*
2018-12-03
2019-04-23
南京师范大学
基于dem的地形素描图自动绘制方法
AlsoPublishedAs
Publicationnumber
Publicationdate
CN102708206B
(zh)
2015-08-05
SimilarDocuments
Publication
PublicationDate
Title
WorldWideWebConsortium
2014
Bestpracticesforpublishinglinkeddata
CN103593456B
(zh)
2017-07-14
表单自定义设计方法及装置
CN102981941B
(zh)
2016-03-02
一种告警处理方法及告警处理装置
CN102122280B
(zh)
2013-06-05
一种智能提取内容对象的方法及系统
CN103123631B
(zh)
2015-12-02
文案的生成、网页文案的展示方法、装置及网站服务器
CN107145480B
(zh)
2020-07-07
一种基于Word进行XBRL报告编制的方法
CN102982010A
(zh)
2013-03-20
提取文档结构的方法和装置
CN106021394A
(zh)
2016-10-12
一种网站的建站方法和装置
CN101520770A
(zh)
2009-09-02
分析、转换和拆分结构化数据的方法和装置
CN102982439A
(zh)
2013-03-20
生成电子公文的方法及电子公文生成系统
CN103927385A
(zh)
2014-07-16
数据模型的统一方法及装置
WO2017223037A1
(en)
2017-12-28
Brand-basedproductmanagement
CN104461531B
(zh)
2017-11-07
一种报表系统自定义函数的实现方法
CN107766042A
(zh)
2018-03-06
一种基于csar的模型文件的可视化设计方法及装置
CN100485687C
(zh)
2009-05-06
建立无连接的数据编程模型的方法、装置及其应用
CN106649769B
(zh)
2020-10-30
一种基于语义的xbrl数据到owl数据的转换方法
CN102708206A
(zh)
2012-10-03
一种数据格式的描述方法
CN103123646B
(zh)
2015-11-04
将xml文档自动转化为owl文档的转换方法及装置
CN103020318A
(zh)
2013-04-03
一种对数据库中数据库表维护的方法
CN105912723B
(zh)
2019-09-13
一种自定义字段的存储方法
CN106161498A
(zh)
2016-11-23
一种稿件的多平台发布方法及系统
US20090049015A1
(en)
2009-02-19
Datamanagementdeviceandterminaldevice
Sambasivanetal.
2017
Aframeworkfortechnologydesignforemergingmarkets
CN104063219A
(zh)
2014-09-24
一种web系统的表格开发方法及系统
GB2458692A
(en)
2009-09-30
Aprocessforgeneratingdatabase-backed,web-baseddocuments
LegalEvents
Date
Code
Title
Description
2012-10-03
C06
Publication
2012-10-03
PB01
Publication
2012-11-28
C10
Entryintosubstantiveexamination
2012-11-28
SE01
Entryintoforceofrequestforsubstantiveexamination
2015-08-05
C14
Grantofpatentorutilitymodel
2015-08-05
GR01
Patentgrant
2019-04-02
TR01
Transferofpatentright
2019-04-02
TR01
Transferofpatentright
Effectivedateofregistration:
20190314
Addressafter:
210023No.18LingshanNorthRoad,QixiaDistrict,NanjingCity,JiangsuProvince,4Blocks102
Patenteeafter:
NanjingPanzhiGeographicInformationIndustryResearchInstituteCo.,Ltd.
Addressbefore:
No.1WenyuanRoad,QixiaDistrict,NanjingCity,JiangsuProvince
Patenteebefore:
NanjingNormalUniversity
延伸文章資訊
- 1流体运动的描述方法 - 小时百科
流体力学中,流体运动的描述方法包括拉格朗日法与欧拉法,两种方法在物理意义和数学表达方面各有特点,下面我们具体解释. 1. 流体与固体的区别.
- 2描述法(集合论) - 维基百科,自由的百科全书
描述法是集合论(或者类的理论)中表示集合(或类)的一种方法。 在一般情况下,只要给出一个关于元素的性质,就能依该性质构造出一个集合(或类),因此我们可以用 ...
- 3描述法:列舉法,方法 - 中文百科全書
描述法. 描述法是集合的常用表示方法。 描述法的定義﹕常用於表示無限集合,把集合中元素 ...
- 4描述法(集合論) - 維基百科,自由的百科全書
- 5描寫方法_百度百科
描寫方法:是用生動形象的語言把人物、事件、景物具體描繪出來的一種手法,給讀者以身臨其境的感覺。作者一般綜合使用描寫、敍述等方法來塑造形象。按內容來分,描寫有 ...