半结构化数据

365bet亚洲版网址 📅 2025-09-06 04:16:41 ✍️ admin 👀 5528 ❤️ 337
半结构化数据

1、半结构化数据定义

结构化数据:传统数据库中定义的数据,商业的交易数据等都是拥有固定的数据结构。

非结构化数据:另一个极端,对于图片、声音和生文本(指未经计算机处理的预料),这些数据完全没有固定结构,故被称为非结构化数据。

半结构化数据(semi-structured data):处于两个极端之间,结构隐含在数据中的,或者模式繁多且经常变化以至于会忽略的数据称为半结构化数据。

2、半结构化数据特征

(1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。

(2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。

(3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态的结构模式。

3、半结构化数据模型

结构化数据模型:E-R模型、关系模型和对象模型

半结构化数据模型:

OEM(Object exchange Model),对象交换模型

OIM(Object Integration Model),对象融合模型【找不到!】

​ + Integrated Object Model(IOM),集成对象模型【好像不是一个东西】

​ + https://support.sas.com/rnd/itech/doc/dist-obj/iom.html​

MFRO(Minimal Full Representation Objects),最小完整表示对象【找不到?】

在数据库方法中,半结构化数据的表示一般用OEM(Object Exchange Model)[4]模型.也可用OIM(Object Integration Model)模型[4,5,6],

用MFRO(Minimal Full Representation Objects)[7,8]方法实现其模式抽取。OIM是OEM的一种变形数据模型。数据库方法的应用集中在模式发现、多层数据库的建立或数据向导(Data Guides)的建立以及web查询系统。

参考:[1]陈修宽,董祥军,石芙芙.Web数据挖掘综述[J].山东轻工业学院学报(自然科学版),2009,23(03):25-28.

数据模型:

结构化数据:二维表(关系型)

半结构化数据:树、图

非结构化数据:无

结构化数据:先有结构、再有数据

半结构化数据:先有数据,再有结构

4、半结构化数据有哪些

数据类型:OWL,XML(SGML),HTML,JSON,RDF

常用的数据交换格式:XML和JSON

XML,扩展标记语言,是标准通用标记语言SGML的子集。起初的设计目标是通用数据标记和呈现文档格式。XML文档的内容的语义部分不证自明蕴于其结构之中。XML设计的基础部分考虑了简单性和用户可读性。W3C指出XML应用于互联网中并且易读易理解。XML在起初是用于远程过程调用(RPC)和对象序列化中。

XML创建了用户定义的文档标记和编码模式。

但是XML没有预先定义标记集,也就是说要么用户自己定义,要么通过其他的模式来自动生成。

//一个XML文档的例子:a person named'John Simth

John

Simth

JSON开始被设计为用户可读且电脑易于解析和使用。JSON是在JavaScript脚本语言中直接支持,因而非常适用于JavaScript应用,且性能明显超过XML,因为后者校额外的类库从文档对象模型DOM中解析对象。与XML相比,JSON在命名空间的支持、输入验证支持和扩展性支持方面有所缺陷,但是解析速度却会超过XML文档百倍。

//一个JSON文档的例子:a person named'John Simth'

{

"6rstname":John"

"secondname":"Smith"

}

主要有三方面:

(1)在lnternet等对存储数据无严格模式限制的情形下,常见的有HTML、XML(SGML)和JSON文件等;

(2)在电子邮件、电子商务、文献检索和病历处理中,存在着大量结构和内容均不固定的数据;

(3)异构信息源集成情形下,由于信息源上的互操作要存取的信息源范围很广,包括各类数据库、知识库、电子图书和文件系统等。

具体例子

政府开放数据各个源:数据模式不确定,多属于半结构化数据范畴;

员工的简历:字段不确定。

有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更;

通信信号循环谱:

参考:[1]刘东威.面向JSON半结构化文档的聚类技术研究[D].东南大学,2017.【2.1】

相关推荐

365bet足球数据直播 淘宝店铺怎么开通花呗支付功能?需要什么条件?
365bet亚洲版网址 如何成为蝙蝠侠?

如何成为蝙蝠侠?

📅 07-05 👀 3423
365bet亚洲版网址 魔兽世界tbc怀旧服萨满能不能玩
365bet足球数据直播 十大B2C跨境电商平台有哪些?附B2C电商平台列表
365bet亚洲版网址 《战机世界》经验分享之美系海航
365bet娱乐开户 手机云闪付功能在哪里

手机云闪付功能在哪里

📅 07-28 👀 5488
365bet娱乐开户 暮字组词

暮字组词

📅 07-17 👀 8169
365bet足球数据直播 红尘英语怎么说

红尘英语怎么说

📅 06-28 👀 6918
365bet足球数据直播 大沥这张“乡村作战图”,价值80亿

友情伙伴