社交媒体数据如何是非结构化数据?

2w3kk1z5  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(858)

我最近开始阅读大数据,以及hadoop或biginsights等工具是如何同时管理结构化和非结构化数据的。
社交媒体分析是可以在biginsights上完成的,它需要非结构化数据并相应地分析/构建它。
这让我想知道,社交媒体数据是如何非结构化的?例如,可以使用twitter restapi调用tweets上可以接收的信息,并以结构化json格式返回给您。
那么,社交媒体数据不是已经结构化了吗?如果是这样,为什么您需要一个主要管理非结构化数据的平台?

r6hnlfcb

r6hnlfcb1#

这不仅仅是为了得到推特。这些数据的真正价值在于了解推特的内容。以facebook为例,我们可以对任何图片或视频发表评论。我们需要一个平台,以了解所有的评论是积极的视频或有多少是雪橇它,或有多少评论是真正的反馈。有多少人对此提出了更好的建议。你还需要知道视频被分享和喜欢了多少次。同样的,所有分享的人都是谁,谁不喜欢它,谁喜欢它。可以收集如此多种类的数据,因此这些都称为非结构化数据。

wj8zmpe1

wj8zmpe12#

有些人也将其区分为“半结构化”。
但关键是查询数据的能力。是的,tweet等通常有一些结构。但这对分析没有帮助。
给定一个难看的sql模式,您确实可以运行如下查询

SELECT AVG(TweetID) FROM Twitter;

但这种功能在实践中是无用的。这可能就是数据最好被认为是非结构化的原因:将其压缩到关系模式中并不能带来好处。
不过,要当心大数据的流行语宾果游戏。通常,“支持非结构化数据”实际上意味着“不受益于数据的结构(通过使用索引),而是每次都重新读取数据”

相关问题