XML数据库的查询技术研究

2023-09-13 来源：榕意旅游网

第１９卷第４期　２０１３年８月　江苏技术师范学院学报　ＪＯＵＲＮＡＬ　ＯＦ　ＪＩＡＮＧＳＵ　ＴＥＡＣＨＥＲＳ　ＵＮＩＶＥＲＳＩＴＹ　ＯＦ　ＴＥＣＨＮＯＬＯＧＹ　Ｖ０１．１９．Ｎｏ．４　Ａｕｇ．，２０１３　ＸＭＬ数据库的查询技术研究　许娴　（江苏理工学院计算机工程学院，江苏常州　２１３００１）　摘要：ＸＭＬ　Ｓｃｈｅｍａ作为一种描述ＸＭＬ文档模式信息即结构信息的标准，对于ＸＭＬ索引的建立及查询效率　的提高有着重要的作用。现在大部分ＸＭＬ索引结构着重研究ＸＭＬ文档的结构查询。本文在比较研究了现有的　区间编码方式和ＸＭＬ索引技术的基础上，提出了一种基于Ｓｃｈｅｍａ的ＸＭＬ索引技术ＳＢＸＩ（Ｓｃｈｅｍａ—Ｂａｓｅｄ　ＸＭＬ　Ｉｎｄｅｘｉｎｇ）。ＳＢＸＩ充分利用了ＸＭＬ　Ｓｃｈｅｍａ建立ＸＭＬ索引从而提高路径查询的效率，并进一步展望未来的研究方　向。　关键词：ＸＭＬ数据库；ＸＭＬ查询；ＸＭＬ索引；ＳＢＸＩ　中图分类号：ＴＰ３１１　文献标识码：Ａ　文章编号：１６７４—８５２２（２０１３）０４—０００７—０６　Ｏ　引　言　可扩展标记语言ＸＭＬｔ　（ｅＸｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）是ｗ３ｃ（ｗ０ｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　Ｃｏｎｓｏｒｔｉｕｍ）于１９９８年　２月正式推荐的Ｗｅｂ上的数据表示和交换标准。由于ＸＭＬ的可扩展性和自描述性，使它在电子商务、网　站管理、个性化出版、电子文档交换等多个领域得到了广泛应用。ＸＭＬ不仅能够存储数据，而且能够存储　结构和语义信息，具有通用的数据表示能力，能表示结构化、半结构化及元结构化数据，然而ＸＭＬ对数据　的处理能力却相当有限。因此，解决好ＸＭＬ文档的存储、管理和查询等问题特别是查询问题，构造一个能　在应用中管理和控制ＸＭＬ文档的数据库系统，即将ＸＭＬ与数据库技术相结合，使ＸＭＬ在各个领域以及　各个行业发挥其最大的潜力，已经成为一个急待解决的问题。　１　ＸＭＬ数据库　随着ＸＭＬ技术的不断发展，ＸＭＬ的存储方法以及各种ＸＭＬ数据库产品都不断涌现。　按照数据存储系统的不同，ＸＭＬ的存储方法大致可以分为三种。　（１）在文件系统中以文本文件方式存储ＸＭＬ。这种方式显然不能使ＸＭＬ的结构化特征得到很好的　体现。　（２）支持ＸＭＬ的数据库（ＸＭＬ—Ｅｎａｂｌｅｄ　Ｄａｔａｂａｓｅ，ＸＥＤ）。它是在传统数据库（关系数据库或面向对象　数据库）的基础上，有数据库厂商或者是第三方增加了ＸＭＬ映射层，由这个映射层管理ＸＭＬ数据的存　储，实现传统数据库与ＸＭＬ文档之间的转换，特别适合以数据为中心的ＸＭＬ文档。例如Ｏｒａｃｌｅ公司的　Ｏｒａｅｌｅ　９ｉ，Ｍｉｃｒｏｓｏｆｔ公司的ＳＱＬ　Ｓｅｒｖｅｒ　２０００，ＩＢＭ公司的ＤＢ２　ＸＭＬ　Ｅｘｔｅｎｄｅｒ等，只是它们针对ＸＭＬ文档的　特性所使用的存储和查询方法不同。　（３）ＸＭＬ本源数据库（Ｎａｔｉｖｅ　ＸＭＬ　Ｄａｔａｂａｓｅ，ＮＸＤ　ｏ　ＮＸＤ是专门设计用于存储ＸＭＬ文档的数据库，它　收稿日期：２０１３—０６—１９　作者简介：许娴（１９８０一），女，江苏常州人，讲师，硕士，主要研究方向为ＸＭＬ和数据库应用。　８　江苏技术师范学院学报　第１９卷　以ＸＭＬ文档自身的形式来存储ＸＭＬ文档，支持事务、安全、多用户访问、编程的ＡＰ１和查询语言等，其内　部模型是基于ＸＭＬ文档格式的。　实际上，ＸＭＬ本源数据库系统也并非是一定要建立一个新的特殊的数据库系统。关于ＸＭＬ本源数　据库，Ｒ．Ｂｏｕｒｒｅｔ给出了一个定义，即只有满足以下三个条件的ＸＭＬ数据库才能称之为ＸＭＬ本源数据　库［２１：　（１）为ＸＭＬ文档定义一个（逻辑）模型，ＸＭＬ数据的存储和查询都基于这个模型。这个模型至少需要　包含元素、属性以及ＰＣＤＡＴＡ等，并保持文档顺序。　（２）将ＸＭＬ文档作为（逻辑）存储的基本单位，正如关系数据库将行（元组）作为存储的基本单位一　样。　（３）不要求只能使用某一特定的底层物理模型或某种专有的存储格式。第一个条件要求ＸＭＬ本源数　据库必须基于某种模型，这是因为各种数据库都基于不同的模型，就像关系数据库基于关系模型，层次数　据库基于层次模型一样。第二个条件的含义是在ＸＭＬ本源数据库中，数据只有在一个ＸＭＬ文档中才有　意义，当然这并不妨碍查询一个文档的片断，就像在关系数据库中仍然可以查询一个元组的片断（属性　值）一样。第三个条件的含义是底层的存储格式并不重要，事实上，很多ＸＭＬ本源数据库是采用一些传统　的数据库作为底层存储引擎的，当然也有采用专用存储格式的。　从上述定义中可以看出，ＸＭＬ本源数据库的核心在于其模式，即它的逻辑模式必须是某种特殊的模　型，而不能是关系的或面向对象的。　尽管目前还不清楚到底那种存储和查询ＸＭＬ数据的方案能被广泛接受，但有一点是清楚的，那就是　关系数据库系统已经非常成熟，有管理大规模数据的能力，有很好的查询性能，且目前在关系数据库系统　中有大量的商用数据。因此，有许多研究者已经或正在从事基于关系数据库的ＸＭＬ数据库系统的研究。　建立一个ＸＭＬ文档的数据模型，对ＸＭＬ文档树中的所有对象（包括元素结点、属性结点、属性值或　文本内容中的关键字等）按某种遍历顺序进行编码和存储，这种编码原则反映了这些对象在ＸＭＬ文档树　中固有的相互关系，以实现对ＸＭＬ文档结构的有效查询，同时还要建立相应的索引来提高数据的访问和　查询效率。这种方法也属于前面所说的ＸＭＬ本源数据库中的一种实现方式。　２　ＸＭＬ数据库的查询及优化　ＸＭＬ文档的查询通常应包括：　（１）在元素内容上的选择，即通过限定在元素内容或属性值上的取值而进行的选择，称为值查询。　（２）通过路径表达式，对文档中标记的元素之间的结构关系进行查询，称为结构查询。　元素之间的结构关系包括：祖先／后裔（ａｎｃｅｓｔｏｒ／ｄｅｓｃｅｎｄａｎｔ）关系、双亲／孩子（ｐａｒｅｎｔ／ｃｈｉｌｄ）关系、之前　／之后（ｐｒｅｃｅｄｉｎｇ／ｆｏｌｌｏｗｉｎｇ）关系、左兄弟／右兄弟（ｐｒｅｃｅｄｉｎｇ—ｓｉｂｌｉｎｇ／ｆｏｌｌｏｗｉｎｇ—ｓｉｂｌｉｎｇ）等。而ＸＭＬ数据库中　大量的查询正是基于结构查询。　为了有效支持ＸＭＬ查询，已经有很多研究者提出了ＸＭＬ的各种编码方式和索引技术。　２．１　ＸＭＬ编码方式　对于ＸＭＬ文档的编码方式，大致可以分为两大类：基于区间的编码方式和基于路径的编码方式。基　于区间（ｒｅｇｉｏｎ—ｂａｓｅｄ）的编码方式利用ＸＭＬ文档的有序特点，根据每一个元素结点在原ＸＭＬ文档中字　典顺序的位置给每一个结点赋予一个编码；而基于路径（ｐａｔｈ—ｂａｓｅｄ）的编码方式则是利用ＸＭＬ文档的嵌　套特点，根据ＸＭＬ文档的嵌套结构，给从文档根结点开始所能到达的每个路径和元素赋予一个编码。较　为著名的区间编码如Ｄｉｅｔｚ编码『３ｌ、Ｌｉ—Ｍｏｏｎ编码嗍、Ｚｈａｎｇ编码【５］等，而很多其他区间编码也是由这几种区　间编码演化而来的。　２．２×ＭＬ索引技术　为了提高ＸＭＬ数据的查询效率，特别是结构查询的效率，ＸＭＬ索引技术是一种很有效的方法。　第４期　许娴：ＸＭＬ数据库的查询技术研究　９　文献［４】中的ＸＩＳＳ对ＸＭＬ文档树以前、后序遍历值进行编码。它的主要索引结构有元素索引、属性索　引和结构索引，其主要思想是将复杂路径查询分解为简单路径，然后对各简单路径的处理结构进行连接。　ＸＩＳＳ对路径查询处理，无需遍历ＸＭＬ文档。但是，首先，如果查询路径由Ｎ个元素／屙ｌ生组成，ＸＩＳＳ需要　从索引中检索出Ｎ组结点；其次，对于由Ｎ个元素／属性组成的查询路径，处理每个ＸＭＬ文档至少需要　（Ｎ—１）次结构连接算法的调用；再次，不可避免的会有许多不相关结构中的结点参与简单路径处理过程　中的双亲／孩子关系或祖先／后裔关系判断，例如路径ｃｏｎｆｅｒｅｎｃｅ／ｔｉｔｌｅ中没有ｂｏｏｋ元素，但是该路径中　ｔｉｔｌｅ结点会参与ｂｏｏｋ／ｔｉｔｌｅ这一双亲／孩子关系判断。　文献［６，７］中的Ｌｏｒｅ索引是基于一种对象交换模型（ＯＥＭ，ｏｂｊｅｃｔ　ｅｘｃｈａｎｇｅ　ｍｏｄｅ１）的图状模型。Ｌｏｒｅ索　引由４个索引结构组成，它们是值索引（Ｖｉｎｄｅｘ）用于查找具有入边并且满足查询条件的所有原子对象；　链接索引（Ｌｉｎｄｅｘ）用于查找已知结点的双亲结点，因为Ｌｏｒｅ本身没有提供访问双亲结点的机制；文本索　引（Ｔｉｎｄｅｘ）用于支持复杂的文本查询，找到包含特定词的对象以及该词在对象值（文本）中的位置；路径　索引（Ｐｉｎｄｅｘ）返回通过路径能到达的所有对象，它是和Ｄａｔａｇｕｉｄｅｓ配合使用的。　文献［８］中的ＳｐｈｉｎＸ是最先利用ＸＭＬ的文档类型定义ＤＴＤ对ＸＭＬ文档进行索引的系统。ＳｐｈｉｎＸ只　须对符合查询条件的ＸＭＬ文档进行处理，但由于只有ＸＭＬ文档的叶子结点携带了相应的ＤＴＤ结构信　息，因此，只有条件路径在ＸＭＬ文档中的定位可以利用ＤＴＤ的结构，而目标路径在ＸＭＬ文档中的定位　依然需要传统的向上或向下的ＸＭＬ文档树遍历方法，即在确定了条件路径的叶子结点对应的符合条件　约束的ＸＭＬ结点集之后，仍需要ＸＭＬ文档部分结构的遍历过程，因此，ＳｐｈｉｎＸ对ＤＴＤ的利用是不彻底　的　３基于Ｓｃｈｅｍａ的ＸＭＬ索引技术　结合ＸＩＳＳ系统中使用的区间编码和ＳｐｈｉｎＸ中利用的ＸＭＬ文档类型定义ＤＴＤ，提出了一种基于　Ｓｃｈｅｍａ的ｘＭＬ索引技术　￣］（Ｓｃｈｅｍａ—Ｂａｓｅｄ　ＸＭＬ　Ｉｎｄｅｘｉｎｇ，ＳＢＸＩ）。　ＸＭＬ　Ｓｃｈｅｍａ作为一种描述ＸＭＬ文档模式信息即结构信息的标准，对于ＸＭＬ索引的建立及查询效　率的提高有着重要的作用。它与ＤＴＤ一样，描述了ＸＭＬ文档的结构信息，有着丰富而强大的数据库类　型，有很好的扩展性、伸缩性和重用性，而且它本身也是一个ＸＭＬ文档。　ＳＢＸＩ是一种充分利用ＸＭＬ　Ｓｃｈｅｍａ建立ＸＭＬ索引提高路径查询的技术。它采用两种区间编码方式　Ｄｉｅｔｚ编码和Ｌｉ—Ｍｏｏｎ编码，分别对ＸＭＬ　Ｓｃｈｅｍａ和ＸＭＬ文档进行编码，使得ＸＭＬ文档中的每个元素和　属性的编码都携带了相应的Ｓｃｈｅｍａ结构信息。　为了有效地实现对文档树中任意２个结点之间的祖先／后裔关系和双亲／孩子关系的检测，以加速　路径表达式的计算，同时实现按关键字搜索ＸＭＬ文档，ＳＢＸＩ将编码方式和逆序列表的思想相结合，分别　对ＸＭＬ　Ｓｃｈｅｍａ和ＸＭＬ文档分别建立索引，并在此基础上提出了ＳＢＸＩ的关系存储模式。　ＳＢＸＩ主要由两部分组成：ＸＭＬ　Ｓｃｈｅｍａ索引结构和ＸＭＬ索引结构。　（１）ＸＭＬ　Ｓｃｈｅｍａ索引结构　ＸＭＬ　Ｓｃｈｅｍａ索引（见图１）是一个逆序列表，　左边第一列为ＸＭＬ　Ｓｃｈｅｍａ中出现的元素／属性　Ｓｃｈｅｍａ元　名，每个元素／属性名指向一组有相同名字的元素　素／属性结　点记录　／属性的记录。　（２）ＸＭＬ索引结构　ＸＭＬ索引（见图２）中，左边第一列是Ｓｃｈｅｍａ　树中的元素／属性结点的先序遍历值列表，每个先　结点集　序遍历值记录，指向一组有相同名字的对应　图１　ＸＭＬＳｃｈｅｍａ索弓　Ｓｃｈｅｍａ树中的同一元素／属性结点的ＸＭＬ元素／　１０　江苏技术师范学院学报　第１９卷　属性结点集记录，以ＸＭＬ文档ＩＤ分组。　ＳＢＸＩ选择关系数据库系统来进行存储，一方面是因为关系数据库系统能够有效地管理和处理大量　的数据，而ＸＭＬ文档一般来说是大数据量的；另一方面，关系数据库管理系统也能够被用来执行ＸＱｕｅｒｙ　查询的其他功能。图３所示是根据ＳＢＸＩ的思想设计的ＸＭＬ数据的索引结构及关系存储模式。　ＸＭＬ元素／　属一　结点　记录　树中的同　…　元　具有相同名字　遍历值列表　的ＸＭＬ元素／属　结点集　图２×ＭＬ索引　图３×ＭＬ数据的索引结构及关系存储模式　其中：　各个索引列表或值列表的码屙『生都用下划线标出。假设所有列表都按码属性建立聚集索引，以加快　查找的执行速度。　对于ＸＭＬ　Ｓｃｈｅｍａ中所有具有相同元素名ｎａｍｅ的元素结点建立一个元素索引表ｅｌｅｍ＿ｎａｍｅ，该索引　列表中的每一个记录是标识该结点的一个五元组（ｐｒｅ，ｐｏｓｔ，ｐａｒｅｎｔ＿ｐｒｅ，ｄｅｐｔｈ，ｎｏｄｅｔｙｐｅ）。其中，ｐｒｅ是该结　点的先序遍历序号；ｐｏｓｔ是该结点的后序遍历序号；ｐａｒｅｎｔ＿ｐｒｅ表示该结点的双亲结点的先序遍历序号　（根结点为０）；ｄｅｐｔｈ表示该结点在Ｓｃｈｅｍａ所对应的树中所处的层数，以反映祖先／后裔关系中的嵌套层　数关系；ｄｔｙｐｅ表示该元素的数据类型；ｍｉｎ和ｍａｘ分别表示该结点在文档中出现的最小次数和最大次　数。　对于ＸＭＬ　Ｓｃｈｅｍａ中所有具有相同属性名ｎａｍｅ的属性结点简历一个属性索引表ａｔｔｒ＿ｎａｍｅ，该索引　列表中的每一个记录是标识该结点的一个六元组（ｐｒｅ，ｐｏｓｔ，ｐａｒｅｎｔ＿ｐｒｅ，ｄｅｐｔｈ）。其中，ｐｒｅ、ｐｏｓｔ、ｐａｒｅｎｔ＿ｐｒｅ、　ｄｅｐｔｈ、ｄｔｙｐｅ、ｍｉｎ和ｍａｘ与元素索引表ｅｌｅｍ—ｎａｍｅ中类似。　元素索引表ｅｌｅｍ＿ｎａｍｅ和属性索引表ａｔｔｒ＿ｎａｍｅ的作用是有效地实现对文档树任意结点对之间的包　含关系（祖先／后裔关系或双亲／孩子关系）的检测，以加速路径表达式的计算。显然，如果存在多个ＸＭＬ　Ｓｃｈｅｍａ，ＸＭＬ　Ｓｃｈｅｍａ文档森林中的所有元素结点和屙『生结点的索引信息可以集中组织在一个列表中。但　是，一方面这样一个列表一般来说是巨大的；另一方面，路径表达式查询的计算经常要对这些列表进行选　择操作、结构连接操作等，因此，为了提高处理性能，这里就按文档中出现的元素或属性的“ｎａｍｅ”分别组　成多个元素索引表和属性索引表。　ｖａｌｕｅ表用来存储ＸＭＬ文档的内容，即所有文本结点的内容及属性结点的值。其中，ｄｉｄ表示该关键　字所在文档的文档标识；ｏｒｄｅｒ表示该关键字的扩展先序遍历序号；ｖａｌ则存储文本结点的内容及属性结　点的值；ｐａｒｅｎｔ＿ｏｒｄｅｒ表示该关键字的双亲结点的ｏｒｄｅｒ；ｄｅｐｔｈ是该关键字在文档树中所处的层数，以反映　它是直接属于哪一个属性结点或双亲元素结点。　第４期　许娴：ＸＭＬ数据库的查询技术研究　１１　ｓｔｒｕｃｔｕｒｅ表用来存储所有元素结点和属性结点的扩展先序列表，即文档的总索引。其中，通过ｎｉｄ可　以从ｎａｍｅ表中获得每一个元素结点的标记名和属性名；ｄｉｄ表示该结点所在文档的文档标识；ｏｒｄｅｒ表示　该结点的扩展先序遍历序号；ｓｉｚｅ表示以该结点的后裔范围；ｐａｒｅｎｔ＿ｏｒｄｅｒ表示该结点的双亲结点的扩展　先序遍历序号；ｄｅｐｔｈ表示该结点在ＸＭＬ文档树中所处的层数；ｓ＿ｐｒｅ表示该结点在元素索引表ｅｌ—　ｅｒａ＿ｎａｍｅ或属性索引表ａｔｔｒ＿ｎａｍｅ中对应结点的先序遍历序号；ｎｏｄｅｔｙｐｅ用来存储结点的类型，它的取值　是“ＥＥ”，“ＥＴ”，“ＥＭ”，“ＥＮ”或“Ａ”，分别表示内容是子元素、内容为文本、内容是子元素和文本混合、内容　为空的元素结点或结点为属性结点。　另外还要建立一个ｄｏｃｕｍｅｎｔ索引表和一个ｎａｍｅ索引表。Ｄｏｃｕｍｅｎｔ索引表中的每一个记录与一个　ＸＭＬ文档相对应，用来存储ｄｉｄ（文档标识）、ＵＲＬ（文档所在位置的ＵＲＬ）以及其他一些与文档相关的信　息；ｎａｍｅ索引表中的每一个记录与ＸＭＬ　Ｓｃｈｅｍａ文档树中的一个元素名或属性名相对应，用来存储ｎｉｄ　（名字标识）、ｎａｍｅ（元素名或属性名）以及其他一些与该名字相关的信息。　在这里，还要注意以下２点：　（１）ＸＭＬ　Ｓｃｈｅｍａ所对应的树中的元素结点和属性结点都按先序遍历序号ｐｒｅ升序排列，ＸＭＬ文档树　中的元素结点、属性结点以及属性值和文本结点内容中的“关键字”都按扩展先序遍历序号ｏｒｄｅｒ升序排　列。　（２）为了有效地实现元素／属性关系的结构连接，对于每一个元素结点，规定它的所有属性的遍历先　于对它的子元素及文本内容的遍历。　如图４，左边为错误的遍历编码，假设要计算／／ｓｅｃｔｉｏｎ／＠ｔｉｔｌｅ，在检测ｅｌｅｍ＿ｓｅｃｔｉｏｎ表的（１，９）的结点时，　将扫描ａｔｔｒ＿ｔｉｔｌｅ表中（３，５）结点和（７，９）结点，得到（１，９）和（７，９）时双亲／孩子结点的结果；继续检测ｅｌ—　ｅｒａ＿ｓｅｃｔｉｏｎ表的（２，６）结点时，由于ａｔｔｒ＿ｔｉｔｌｅ表中的（３，５）结点已经扫描过了，因此必须重新搜索并扫描。而　对于右边的遍历编码，则不会出现这种情况，它可以确保在计算元素／属性之间的双亲／孩子关系时，仅　需对ｅｌｅｍ＿ｓｅｃｔｉｏｎ表和ａｔｔｒ＿ｔｉｔｌｅ表中的元组分别进行一次扫描即可实现连接。　●　ＥｌｅｍｅｎｔＮｏｄｅ　◆　ＡｔｔｒｉｂｕｔｅＮｏｄｅ　图４错误的和正确的结点遍历编码示例　通过相关实验，ＳＢＩＸ在索引建立时间以及查询响应时间等上都有不同程度的提高，而且对于ＸＭＬ　无效查询也能做出正确的回应。　４　结　语　ＸＭＬ在各个领域以及各个行业都具有十分巨大的潜力，ＸＭＬ与数据库技术的结合使得ＸＭＬ的潜力　能够得到更为充分的挖掘。随着ＸＭＬ数据库查询技术的不断发展，ＸＭＬ编码方式和索引技术的深入研　究，ＸＭＬ与数据库技术的结合必将会实现更为强大的功能。　ＳＢＸＩ是一种充分利用ＸＭＬ　Ｓｃｈｅｍａ建立ＸＭＬ索引提高路径查询的技术。它采用两种区间编码方式　Ｄｉｅｔｚ编码和Ｌｉ—Ｍｏｏｎ编码，分别对ＸＭＬ　Ｓｃｈｅｍａ和ＸＭＬ文档进行编码，使得ＸＭＬ文档中的每个元素和　属性的编码都携带了相应的Ｓｃｈｅｍａ结构信息。为了有效地实现对文档树中任意两个结点之间的祖先／　后裔关系和双亲／孩子关系的检测，以加速路径表达式的计算，同时实现按关键字搜索ＸＭＬ文档，ＳＢＸＩ　１２　江苏技术师范学院学报　第１９卷　将编码方式和逆序列表的思想相结合，分别对ＸＭＬ　Ｓｃｈｅｍａ和ＸＭＬ文档分别建立索引，并在此基础上提　出了ＳＢＸＩ的关系存储模式。通过相关实验，ＳＢＩＸ在索引建立时问以及查询响应时间等上都有不同程度　的提高，而且对于ＸＭＬ无效查询也能做出正确的回应。　参考文献：　［１】Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　Ｃｏｎｓｏｒｔｉｕｍ，Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ（ＸＭＬ）Ｉ．１［ＥＢ／ＯＬ］．Ｗ３Ｃ　Ｒｅｃｏｍｍｅｎｄａｉｔｏｎ　０４　Ｆｅｂｒｕａｒｙ　２００４，ｈｔｔｐ　／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ｘｍｌｌ　１／．　［２］Ｂｏｕｒｒｅｔ　Ｒ．ＸＭＬ　ａｎｄ　Ｄａｔａｂａｓｅ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｒｐｂｏｕｒｒｅｔ．ｃｏｍ／ｘｍｌ／ＸＭＬＡｎｄＤａｔａｂａｓｅ．ｈｔｍ．　［３］Ｄｉｅｔｚ　Ｐ　Ｆ．Ｍａｉｎｔａｉｎｉｎｇ　Ｏｒｄｅｒ　ｉｎ　ａ　Ｌｉｎｋｅｄ　Ｌｉｓｔ［Ｃ］．Ｉｎ：Ｌｅｗｉｓ　Ｈ　Ｒ　ｅｔ　ａｌ　Ｅｄｓ．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１４ｔｈ　Ａｎｎｕａｌ　ＡＣＭ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｔｈｅ—　ｏｒｙ　ｏｆ　Ｃｏｍｐｕｔｉｎｇ（ＳＴＰＣ’８２）．Ｓａｎ　Ｆｒａｎｃｉｓｃｏ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ．Ｍａｙ５—７，１９８２．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ　Ｐｒｅｓｓ，１９８２：１２２—１２７．　［４］Ｌｉ　Ｑ，Ｍｏｏｎ　Ｂ．Ｉｎｄｅｘｉｎｇ　ａｎｄ　Ｑｕｅｒｙｉｎｇ　ＸＭＬ　Ｄａｔａ　ｆｏｒ　Ｒｅｕｌｇａｒ　Ｐａｔｈ　Ｅｘｐｒｅｓｓｉｏｎｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ＶＬＤＢ，２００１：３６１—３７０．　【５　Ｙｏｓ５Ｊｈｉｋａｗａ　Ｍ，Ａｍａｇａｒａ　Ｔ，Ｓｈｉｍｕｒａ　Ｔ，ｅｔ　ａ１．Ｓｔｏｒｉｎｇ　ａｎｄ　Ｑｕｅｒｙｉｎｇ　Ｏｒｄｅｒｅｄ　ＸＭＬ　ｕｓｉｎｇ　ａ　Ｒｅｌａｔｉｏｎａｌ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍ［Ｃ］．Ｉｎ：　Ｆｒａｎｋｌｉｎ　Ｍ　Ｊ　ｅｔ　ａｌ　Ｅｄｓ．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２１ｔｈ　ＡＣＭ　ＳＩＧＭＯＤ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｄａｔａ．Ｍａｄｉｓｏｎ，Ｗｉｓ—　ｃｏｎｓｉｎ，ＵＳＡ．Ｊｕｎｅ　３－６，２００２．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００２：２０４—２１５．　［６】Ｇｏｌｄｍａｎ　Ｒ，Ｗｉｄｏｍ　Ｊ．ＤａｔａＧｕｉｄｅｓ：Ｅｎａｂｌｉｎｇ　Ｑｕｅｒｙ　Ｆｏｒｍｕｌａｔｉｏｎ　ｎｄａ　Ｏｐｔｉｍｉｚａｔｉｏｎ　ｉｎ　Ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　ｄａｔａｂａｓｅｓ【Ｃ１．Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２３ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ＶＬＤＢ．１９９７：４３６－４４５．　ｈｔｔｐ：／／ｗｗｗｄｂ．ｓｔａｎｆｏｒｄ．ｅ—　［７］ＭｃＨｕｇｈ　Ｊ，Ｗｉｄｏｍ　Ｊ，Ａｂｉｔｅｂｏｕｌ　Ｓ，ｅｔ　ａ１．Ｉｎｄｅｘｉｎｇ　Ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　Ｄａｔａ．Ｔｅｃｈｎｉｃａｌ　Ｒｅｐｏｒｔ，Ｊａｎｕａｒｙ　１９９８．一ｄｕ／ｌｏｒｅ／ｐｕｂｓ．　［８］Ｐｏｏｌａ　Ｌ　Ｋ，Ｈａｒｉｓｔｓａ　Ｊ　Ｒ．ＳｐｈｉｎＸ：Ｓｃｈｅｍａ－ｃｏｎｓｃｉｏｕｓ　ＸＭＬ　Ｉｎｄｅｘｉｎｇ［ＥＢ／ＯＬＪ．Ｔｅｃｈｎｉｃａｌ　ｒｅｐｏｒｔ．ＴＲ－２００１—０４，ＤＳＬ／ＳＥＲＣ，ｈｔｔｐ：　／／ｄｓ１．ｓｅｒｃ．ｉｉｓｃ．ｅｒｎｅｔ．ｉｒｄｒｅｐｏ￣ｓ．ｈｔｒｎ１．　［９】曾一，许娴，张元平．一种基于Ｓｃｈｅｍａ的ＸＭＬ索引结构［Ｊ］．计算机工程，２００６，３２（１８）：６４—６６．　［１０］许娴．基于Ｓｃｈｅｍａ的ＸＭＬ索引技术的研究［Ｄ］．重庆：重庆大学，２００６．　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｑｕｅｒｙ　Ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　ＸＭＬ　Ｄａｔａｂａｓｅ　ｘＵ　Ｘｉａｎ　（Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｊｉａｎｇｓｕ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｚｈｏｕ，２１３００１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ａｓ　ａ　ｓｔａｎｄａｒｄ　ｏｆ　ｄｅｓｃｒｉｂｉｎｇ　ｔｈｅ　ｓｃｈｅｍｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｏｒ　ｓｔｒｕｃｔｕｒｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｏｆ　ＸＭＬ　ｄｏｃｕｍｅｎｔ，ＸＭＬ　Ｓｃｈｅｍａ　ｐｌａｙｓ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｒｏｌｅ　ｉｎ　ｔｈｅ　ｂｕｉｌｄｉｎｇ　ｏｆ　ＸＭＬ　ｉｎｄｅｘｉｎｇ　ａｎｄ　ｉｍｐｒｏｖｉｎｇ　ｏｆ　ｔｈｅ　ｑｕｅｒｙ　ｅｆｆｉｃｉｅｎｃｙ．Ｎｏｗ　ｍｏｓｔ　ｏｆ　ｔｈｅ　ＸＭＬ　ｉｎｄｅｘｉｎｇ　ｓｔｒｕｃｔｕｒｅｓ　ｆｏｃｕｓ　ｏｎ　ｓｔｕｄｙｉｎｇ　ｔｈｅ　ｓｔｒｕｃｔｕｒａｌ　ｑｕｅｒｙ．　Ｃｏｍｐａｒｉｎｇ　ｔｈｅ　ｃｕｒｒｅｎｔ　ｒｅｇｉｏｎ　ｅｎｃｏｄｉｎｇ　ａｎｄ　ＸＭＬ　ｉｎｄｅｘｉｎｇ　ｔｅｃｈｎｉｑｕｅ，ｔｈｅ　ｐａｐｅｒ　ｂｒｏｕｇｈｔ　ｆｏｒｗａｒｄ　ａ　ｋｉｎｄ　ｏｆ　ＸＭＬ　ｉｎｄｅｘｉｎｇ　ｂａｓｅｄ　ｏｎ　ＸＭＬ　Ｓｃｈｅｍａ　ＳＢＸＩ（Ｓｃｈｅｍａ－Ｂａｓｅｄ　ＸＭＬ　Ｉｎｄｅｘｉｎｇ）．ＳＢＸＩ　ｍａｄｅ　ｔｈｅ　ｍｏｓｔ　ｏｆ　ｔｈｅ　ＸＭＬ　Ｓｃｈｅｍａ　ｔｏ　ｂｕｉｌｄ　ｔｈｅ　ＸＭＬ　ｉｎｄｅｘｉｎｇ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｅｆｉｃｉｅｎｃｙ　ｏｆ　ｐａｔｈ　ｑｕｅｒｙｉｎｇ　ａｎｄ　ｐｒｏｓｐｅｃｔｅｄ　ｆｔｈｅ　ｆｕｔｕｒｅ　ｒｅｓｅａｒｃｈ　ｄｉｒｅｃｔｉｏｎｓ．　Ｋｅｙ　ｗｏｒｄｓ：ＸＭＬ　Ｄａｔａｂａｓｅ；ＸＭＬ　Ｑｕｅｒｙ；ＸＭＬ　Ｉｎｄｅｘｉｎｇ；ＳＢＸＩ　责任编辑张志钊　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

XML数据库的查询技术研究