语义网期刊十年奖:LinkedGeoData空间开放数据核心研究
某中心应用科学家Jens Lehmann与三位合著者因论文《LinkedGeoData:空间开放数据网络核心》获得语义网期刊十年奖。该论文发表于2012年,由期刊主编Pascal Hitzler和Krzysztof Janowicz领导的编辑委员会从当年发表的论文中评选而出。
技术突破与创新
论文通过描述从OpenStreetMap导出的大规模数据集,证明了大规模虚拟知识图谱的可行性。OpenStreetMap是一个依赖测绘社区贡献和维护数据的协作项目,作为全球免费地理数据库的一部分。
关键技术特性
数据规模与处理
- 完整提取时包含数十亿个事实陈述,是当时最大的数据集之一
- 采用轻量级本体层简化数据集查询和应用程序开发
- 通过连接到DBpedia等其他数据集,支持多源信息融合
查询重写技术
- 使用Sparqlify方法(及其分布式版本Sparklify)将SPARQL查询转换为底层OpenStreetMap数据库查询
- 支持在关系数据库上发布虚拟知识图谱,无需更改数据库本身
- 实现知识图谱的实时同步,适应OpenStreetMap每分钟数千次变更的需求
空间数据处理
- 完整数据集包含约80亿个实体,规模达数TB
- 2012年提取的数据转储包含270亿个事实,超过当时Google知识图谱的规模
- 支持空间谓词查询,最近增加了对Ontop重写器的替代支持
技术架构与应用
LinkedGeoData采用资源描述框架数据模型,包含与其他知识图谱的链接。该资源已应用于空间实体链接、实体对齐和拓扑关系发现。通过最新重写器,研究人员可以为特定用例构建数据快照,并使用SPARQL及其扩展OGC GeoSPARQL进行高效查询。
查询日志已被用于各种分析任务,针对需要处理特定区域或特定空间元素的较小子集的用户,提供了过滤策略以获取特定用例的快照。
技术影响
该研究解决了虚拟知识图谱的主要挑战:在不改变底层结构的情况下实现高效查询。虚拟知识图谱方法使得在关系数据库上发布知识图谱成为可能,同时保持与频繁更新的源数据的实时同步能力。