地理信息系统建库基本思想
在地理信息系统的建设中,数据库的建设极为重要,基础地形库的建设大概要占到整个系统的 60% 甚至更高。因此,若在建库的过程中碰到问题,将导致建库的困难,甚至无法完成建库的工作。要解决建库遇到的各种问题并顺利完成建库,就要对建库的整个过程进行分析,从中找出影响建库的最主要的因素,并认真的分析这些因素产生的根本原因,制定出解决这些问题的解决方案,完成重要的建库工作。
数据库建库主要有三个过程:
First -- 数据库建模。主要是根据具体行业的特点及对其的理解,制定出数据规范,在逻辑上建设数据库。
Second -- 数据校验。主要是检测数据的正确性,保证数据质量。
Third -- 数据入库。主要是将获取的各种数据,例如纸制数据,矢量数据,栅格数据,遥感影像数据等准确的导入到数据库中。
下面对数据库建库的整个过程进行详细分析。
1. 数据建模
数据建模的目的是根据对应用行业的理解,在逻辑和概念上对数据库进行设计,其影响的是数据库建设完毕后的合理性、通用性和可扩展性。建模是否成功将直接影响到系统是否易用、易扩展,甚至是否成功。地理信息数据库建库过程中遇到的各种问题主要是数据问题,对系统成功进行了建模之后,若数据存在问题,将直接影响到数据的入库。
2. 数据入库
在数据入库的过程中,其核心是如何依据所制定的数据规范将各种格式的数据,准确的、快速的导入到数据库中。在这个过程中遇到的问题,其根本就是如何解决不同平台之间数据集成的问题。在《 GIS 开发者》第八期电子杂志中,曾提出共相式地理信息系统,其目的之一也是为了解决数据源的集成问题。在目前,实现地理信息多源数据集成的方式大致有三种,即数据互操作模式,直接数据访问模式和数据格式转换模式。
共相式 GIS 支持多种数据格式的技术框架示意图
( 注:该图引用自《 GIS 开发者》第八期电子杂志 )
(1) 数据互操作模式。数据互操作模式是 OpenGIS Consortium ( OGC )制定
的规范。这种模式和数据入库的思路有所不同。
(2) 直接数据访问模式。直接数据访问模式是指在一个 GIS 软件中,实现对其他软件数据格式的直接访问,用户可以使用单个 GIS 软件存取多种数据格式。以 ArcGIS 为例,它可以打开多种 GIS 平台及其它相关软件的数据。
(3) 数据格式转换模式格式转换模式是传统的 GIS 数据集成方法,也是入库的基本思想。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,就可以进行入库了。例如,在 ArcToolBox( 版本 9 以后被整合到 ArcMap 和 ArcCatalog 中 ) 里,就有多种数据格式转换的工具。
数据格式转换是目前 GIS 系统集成的主要办法。现在基本上每个主流 GIS 平台都提供了一些数据转换工具,以 ESRI 公司的 ArcGIS 平台提供了 ArcToolBox 工具箱,功能相对完善,基本上支持所有市面上各种主流的 GIS 数据,例如 Autodesk 公司的 DWG 格式文件和 DXF 格式文件, MapInfo 公司的 MIF 格式, Intergraph 的 DGN 格式,以及各种栅格图形数据等等,基本上满足了一般数据入库的要求。此外,还有其它许多专门的数据格式转换工具可以使用。由此可以看出,只要提供的源数据是正确的,符合规范的,那么利用上述工具就可以将数据导入到数据库中,从而顺利的完成建库的工作。因此,源数据的准确性和规范性就成为建库成功的十分关键的因素。由此看来,数据校验就成为建库能否顺利进行的关键所在。
数据校验需要完成哪些工作,怎样进行校验与把关才能在建库之初就能预测各种潜在的问题,因此,需要仔细分析导致数据不准确、不规范的原因。一般情况下,需要从数据规范和数据生产过程中考虑。
3. 数据规范
这里说的数据规范,指的是可以被系统所正确识别的数据。这依赖于上述数据库建库的第一个过程,即数据库标准的制定和数据规范。这里的主要矛盾在于,因为 GIS 平台的不一致,各个平台对空间数据描述的模型不同,而导致了在一个平台上生成的数据在另一个平台不能正确读出,从而导致转换前后矢量或属性数据的丢失,甚至无法转换的结果。
例如, AutoCAD 存在拟合曲线 Spline 对象,图形块 Block 对象,区域 Region 对象,代理对象等许多特殊的图形对象,在 GIS 系统中没有相应的图形对象与之相对应。因此要想将这些数据入库,必须先将以上对象转化,使之变成 GIS 可以识别的图形对象。 AutoCAD 的扩展数据由于为 AutoCAD 所特有,因此也必须寻找解决办法 ( 例如数据格式转换 ) ,使之能被 GIS 所正确读取。
此外还包括数据规范中规定的各个图层之间相互的空间拓扑关系及属性数据等,这些都要求有相应的检测和修正工具予以保证。
4. 数据生产
数据生产过程主要包括准备阶段和数据输入阶段。以下为 AutoCAD 平台下数据的生产过程为例。
准备阶段
此过程包括定义图层名称,配置图层的各种属性(颜色,线性,线宽,图形符号等)。这一过程是数据生产的准备阶段,工作逻辑上非常简单,在认真设置和检查后,产生错误
的可能性会很小。
数据生产阶段
包括栅格数据自动矢量化和人工输入两个比较大的方面,有时候全为人工输入。
栅格数据自动矢量化是通过扫描仪器输入栅格数据,然后通过图像识别算法,进行矢量跟踪,从而确定实体的空间位置。在目前的技术发展中,程序的算法往往不能完全识别出所需要的对象并进行正确的矢量化,若栅格数据是经过底图扫描而非遥感影像,可能还会出现扫面不清晰,因此会产成各种各样的问题。常见的错误主要有以下几种:
(1) 房屋等面状闭合物体留有缺口,即不封闭。
(2) 扫描后的线段存在很多重复点的现象。
(3) 扫描后的线段存在自相交的情况。
(4) 在图像边缘上的线段,扫描后出现畸变现象。
(5) 在图像的边缘存在数据丢失的现象。
(6) 由于图像定位不准,导致扫描后图像部分基准点偏移,从而导致相邻的地区存在图形重叠或交叉的现象。
其中基准点偏差的影响尤为显著,严重影响数据建库。一般情况下,我们需要封闭检查,重复点检查,自相交检查,基准点检查和校正等检查工具去发现和排除这些错误。在
这些错误中,错误 1 、 2 、 3 、 6 在逻辑上比较简单,相对比较好解决。错误 4 、 5 则比较难于检查和解决。
人工输入是指数据录入人员按照要求用鼠标或绘图议等手工在图纸上进行绘图,并设置和添加各种属性的过程。这一过程十分繁重的,并且工作具有重复性和枯燥性等特点,因此容易造成各种错误,从而影响数据质量。产成的错误的原因主要有两个:
精度问题造成的错误,这种原因往往造成图形拓扑关系错误。例如,应该闭合的面状物体没有闭合,应该端点相连的直线没有连接,不应该重叠的线段存在重叠的部分,不应该交叉的图形存在交叉,面与面之间存在缝隙,面与面之间发生重叠,基准点和控制点定位不准确等等。
人为疏忽造成的原因。例如,有属性的图形物体忘记给属性赋值,导致属性丢失;有属性的图形物体错误赋值,导致属性错误;图幅边框被删除或者移动位置;图幅边界上的图形没有很好的完成接边处理,造成相邻图形不匹配等等。这些错误都经常的会在数据生产过程中发生,如果不加以检测和修正,将直接影响建库的正确性和准确性,应予以注意。
5. 小结
从以上分析可以看出,数据建模、数据规范、数据生产都是 GIS 数据顺利、准确入库的关键,在整个过程中,数据校验起到了非常重要的作用,在实际操作中,需要系统理论知识和经验知识来作为建立 GIS 数据库的架构支撑。根据个人有限的系统工程方面的理论知识,只能对数据校验做出如下概述:
(1) 首先,需要对准备入库的各种源数据进行研究和分析,从中发现数据中存在的
明显的错误,并估计潜在的错误。
(2) 根据数据建库标准和数据规范,分析这些错误可能对建库造成的影响,按照严重程度、优先级别、逻辑关系等将错误分类,并制定处解决问题的方案。
(3) 按照制定的解决方案有计划、有步骤的纠正这些错误,使之符合建库的规范。
(4) 这样循环检查几次,尽量消除数据中的错误,一般情况下,总会有少量错误存在。
(5) 当已经很难找出错误时,可以开始进行抽样检测,并小规模进行试验性入库。
(6) 在试验性入库成功后,进行大批量的实际入库。
(7) 入库完毕,对入库成果进行抽样检查,查找不正确的地方,并进行修正。
(8) GIS 数据入库正式完成,交付使用。
经过上述过程,整个建库工作就已经完成。上文所述,只是个人在 GIS 数据建库方面的一点个人经验和系统知识,在今后的实际工作中仍需不断完善、深入。
国家基础地理信息系统是以形成数字信息服务的产业化模式为目标,通过对各种不同技术手段获取的基础地理信息进行采集、编辑处理、存贮,建成多种类型的基础地理信息数据库,并建立数据传输网络体系,为国家和省(市、自治区)各部门提供基础地理信息服务。它是一个面向全社会各类用户、应用面最广的公益型地理信息系统。是一个实用化的、长期稳定运行的信息系统实体。是我国国家空间数据基础设施(NSDI)的重要组成部
分,是国家经济信息系统网络体系中的一个基础子系统。
国家基础地理信息数据库是存储和管理全国范围多种比例尺、地貌、水系、居民地、交通、地名等基础地理信息,包括栅格地图数据库、矢量地形要素数据库、数字高程模型数据库、地名数据库和正射影像数据库等。国家测绘局1994年建成了全国1:100万地形数据库(注:含地名)、数字高程模型数据库, 1:400万地形数据库等;1998年完成全国1:25万地形数据库、数字高程模型和地名数据库建设;1999年建设七大江河重点防范区1:1万数字高程模型(DEM)数据库和正射影像数据库;2000年建成全国1:5万数字栅格地图数据库;2002年建成全国1:5万数字高程模型(DEM)数据库,并更新了全国1:100万和1:25万地形数据库;2003年建成1:5万地名数据库、土地覆盖数据库、 TM卫星影像数据库。现正在建立 全国1:5万矢量要素数据库、正射影像数据库等。各省正在建立本辖区1:1万地形数据库、数字高程模型(DEM)数据库、正射影像数据库、数字栅格地图数据库等,并正在进行省、市级基础地理信息系统及其数据库的设计和试验研究。
地形数据库是空间型的GIS数据库。它是将国家基本比例尺地形图上各类要素包括水
系、境界、交通、居民地、地形、植被等按照一定的规则分层、按照标准分类编码,对各要素的空间位置、属性信息及相互间空间关系等数据进行采集、编辑、处理建成的数据库。根据国家基础地理信息系统总体设计,国家级地形数据库的比例尺分为1:100万、1:25万和1:5万三级。省级地形数据库的比例尺分为1:25万、1:5万和1:1万三级。
1、全国1:400万地形数据库
全国1:400万地形数据库,是在1:100万地形数据库基础上,通过数据选取和综合派生的。数据内容包括主要河流(5级和5级以上)、主要公路、所有铁路、居民地(县和县级以上)、境界(县和县级以上)及等高线(等高距为1,000米)。数据分为6层。
2、全国1:100万地形数据库
全国1:100万地形数据库的主要内容包括:测量控制点、水系、居民地、交通、境界、地形、植被等。
该数据库利用1:100万比例尺地形图分版二底图作为数据源,执行《国土基础信息数据分类与编码》(GB/T 13923-92)国家标准。
3、全国1:25万地形数据库
全国1:25万地形数据库共分水系、居民地、铁路、公路、境界、地形、其他要素、辅助要素、坐标网以及数据质量等十四个数据层。
该数据库按地理坐标和高斯-克吕格投影两种坐标系统分别存储。
4、全国1:5万矢量要素数据库
全国1:5万矢量要素数据库是由水系、等高线、境界、交通、居民地等大类的核心地形要素构成的数据库,其中包括地形要素间的空间关系及相关属性信息。该数据库采用高斯—克吕格投影,1980西安坐标系和1985国家高程基准,按6°分带。
地名数据库是空间定位型的关系数据库。它是将国家基本比例尺地形图上各类地名注记包括居民地、河流、湖泊、山脉、山峰、海洋、岛屿、沙漠、盆地、自然保护区等名称,连同其汉语拼音及属性特征如类别、政区代码、归属、网格号、交通代码、高程、图幅号、图名、图版年度、更新日期、X坐标、Y坐标、经度、纬度等录入计算机建成的数据库。它与地形数据库之间通过技术接口码连接,可以相互访问,也可以作为单独的关系型数据库运行。
1、全国1:25万地名数据库
全国1:25万地名数据库是一个空间定位型的关系数据库,其主要内容是1:25万地形图上各类地名信息及与其相关的信息,如汉语拼音、行政区划、坐标、高程和图幅信息等。
该数据库设计了地名信息、行政区划信息、图幅信息、图幅与政区关系、地名类别对照、行政区划与政区代码对照六个表。前四个表为基本信息表,后两个表为辅助信息表。
2、全国1:5万地名数据库
全国1:5万地名数椐库是以最新版的1:5万地形图作为基础工作图,采用内业与有重点的实地核查相结合的地名更新方法,充分利用民政部门提供的全国及省级行政区划简册、地名录(志)、地 名普(补)查图等地名资料,以及最新的测绘成果,进行了全国范围建制村以上地名数据的核查与采集。共核查、采集1:5万地形图地名数据500多万条,数据量为1.2GB,更新地名近140万条,占全部地名的26.4%。数据库中县以上地名数据的现势性达到2002年底,街道办事处、镇、乡及建制村达到2000年底,其中9个省采用2001年撤乡并镇后的资料。
数字高程模型数据库是空间型数据库。它是将定义在平面X、Y域(或理想椭球体面j、l)按照一定的格网间隔采集地面高程而建立的规则格网高程数据库,简称DEM。它可以利用已采集的矢量地貌要素(等高线、高程点或地貌结构线)和部分水系要素作为原始数据,进行数学内插获得。也可以利用数字摄影测量方法,直接从航空摄影影像采集。其中,陆地和岛屿上格网的值代表地面高程,海洋区域内的格网的值代表水深。
1、全国1:100万数字高程模型数据库
全国1:100万数字高程模型数据库利用1万多幅1:5万和1:10万地形图,按照28\".125×18\".750(经差×纬差)的格网间隔,采集格网交叉点的高程值,经过编辑处理,以1:50万图幅为单位入库。原始数据的高程允许最大误差为10-20米。利用该数据内插国内任一点高程值的中误差,如下表所示:
地 区 高山 中、低山 丘陵 平原
中误差(米) 70 41 20 1
全国1:100万数字高程模型的总点数为2500万点。
2、全国1:25万数字高程模型数据库
用于生成全国 1:25万数字高程模型的原始数据包括等高线、高程点、等深线、水深点和部分河流、大型湖泊、水库等。采用不规则三角网模型(TIN)内插获得
全国1:25万数字高程模型以高斯-克吕格投影和地理坐标分别存储。高斯-克吕格投影的数字高程模型数据,格网尺寸为100m×100m。以图幅为单元,每幅图数据均按包含图
幅范围的矩形划定,相邻图幅间均有一定的重迭。地理坐标的数字高程模型数据,格网尺寸为3″×3″,每幅图行列数为1201×1801,所有图幅范围都为大小相等的矩形。
3、1:5万数字高程模型数据库
1:5万数字高程模型利用全数字方法生产。部分采用1:5万数据库数据、采用ARC/INFO软件的TIN和GRID模块,生成25米×25米格网形式的全国1:5万DEM。存储格式为ARC/INFO GRID。
采用6°分带的高斯克-吕格投影,1980西安坐标系和1985国家高程基准。
数字栅格地图数据库是空间型数据库。它是已经出版的地图经过扫描、几何校正、色彩校正和编辑处理后,建成的栅格数据库。该数据库可管理DRG的数据目录,支持数据分发。库体中存储和检索的最小单位一般是图幅,可按图幅/区域进行管理。
全国1:5万数字栅格地图数据库
1:5万数字栅格地图数据库是现有1∶5万模拟地形图的数字形式。
扫描输入400-600dpi。按地面分辨率4米输出。
按照1:5万地形图分幅存储,存储格式为TIFF(LZW压缩)。
全国1:5万DRG数据库在空间上包含19000多幅1:5万地形图数据,覆盖整个国土范围约70~80%。
正射影像数据库是空间型数据库。它是由各种航空航天遥感数据或扫描得到的影像数据经过辐射校正、几何校正,并利用数字高程模型进行投影差改正处理产生的正射影像,有时附之以主要居民地、地名、境界等矢量数据,构成的影像数据库。影像可以是全色的、
彩色的,也可以是多光谱的。影像数据可以采用压缩方式存储以节约存储空间。其比例尺系列与地形数据库相一致。
1:5万数字正射影像数据库
1:5万数字正射影像数据库是将扫描数字化的航空像片的影像数据,经逐像元进行几何改正,按标准1:5万图幅范围裁切和镶嵌生成的数字正射影像集而构建的空间影像数据库。其影像数据是按照1:2.5万地形图的精度进行生产,地面分辨率为1米,同时具有地图几何精度和影像特征的图像。
土地覆盖数据库是利用全国陆地范围2000年前后接收的Landsat卫星遥感影像采集
的,共计752幅(1:25万分幅),数据量约为12GB。土地分6个一级类和24个二级类,采用6度带高斯投影,包括栅格和矢量两种数据格式。数据库采用基于ORACLE 8i的ArcSDE和ArcMap平台进行管理,可满足检索、查询、浏览和分发服务的需求。
航天航空影像数据库是利用各种航天航空遥感数据或扫描得到的影像数据为数据源而设计构建的空间影像数据库,其具有多时间分辨率、多光谱分辨率、多空间分辨率、多灰度分辨率等特征。
1、航空影像数据库
航空影像数据库的内容包括航片扫描影像库、航片预览影像库、航片定位数据库和航
摄文档参数数据库。数据库包括我国50年代以来航空摄影资料,扫描精度不低于4μm。目前数据库正在建设中。
2、卫星影像数据库
卫星影像数据库就是利用遥感卫星对地观测的影像数据数据源,经加工处理、整合集成而形成的空间影像数据库。TM卫星正射影像数据库业已建成,其数据源为LandSat7卫星ETM+传感器所获取的15米分辨率的全色影像数据和30米分辨率的多光谱影像数据,共包括覆盖全国陆域范围的522景影像。SPOT卫星正射影像数据库数据源为SPOT全色波段数据(10米分辨率)的覆盖全国陆域(除新疆和西藏的少数荒漠地区)的卫星影像数据。
因篇幅问题不能全部显示,请点此查看更多更全内容