是不是真的hadoop框架不适合实时操作?

qlfbtfca  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(333)

我在博客上读到
hadoop是以批处理为中心的,非常适合于发现、探索和分析大量不适合于表的、不适合实时操作的多结构数据。
所以,任何人都可以帮助我更好地解释这一点,比如它不适合实时操作。质量

7kjnsjlb

7kjnsjlb1#

对于实时处理,您有hbase,它是hadoop生态系统的一部分:
http://hbase.apache.org/
apachehbase是hadoop数据库,一个分布式、可扩展的大数据存储。
何时使用apache hbase?
当您需要对大数据进行随机、实时读/写访问时,请使用apachehbase。这个项目的目标是在商品硬件集群上托管非常大的表——数十亿行x数百万列。apache hbase是一个开源的、分布式的、版本控制的、非关系型数据库,模仿google的bigtable:chang等人的结构化数据分布式存储系统。正如bigtable利用google文件系统提供的分布式数据存储一样,apache hbase在hadoop和hdfs之上提供了类似bigtable的功能。
特征
线性和模块化的可扩展性。
列表项
严格一致的读写。
自动和可配置的表分片
区域服务器之间的自动故障转移支持。
使用apache hbase表支持hadoop mapreduce作业的方便基类。
易于使用的javaapi进行客户端访问。
用于实时查询的块缓存和bloom过滤器。
通过服务器端过滤器的查询 predicate 下推
thrift gateway和支持xml、protobuf和二进制数据编码选项的rest-ful web服务
基于可扩展jruby(jirb)shell
支持通过hadoop度量子系统将度量导出到文件或ganglia;或通过jmx
它还支持原子计数器,这是hbase最强大的功能之一,可以帮助您减少对大型分析作业的需求(通过仔细规划的行键和模式设计)。

jhkqcmku

jhkqcmku2#

hadoopmapreduce不适合实时处理。
但现在,这种情况正在改变。例如,storm,spark提供近实时处理功能。
spark使用内存计算来实现更快的处理。它使用rdd(弹性分布式数据集)作为内存抽象。
其中as storm使用了喷口(源)和螺栓(汇)的dag。这称为拓扑,拓扑保持运行。也就是说,它从喷口获取数据并将其提供给螺栓。螺栓可以将这些数据写入数据库或提供给用户。这减少了处理时间。

相关问题