我在博客上读到hadoop是以批处理为中心的,非常适合于发现、探索和分析大量不适合于表的、不适合实时操作的多结构数据。所以,任何人都可以帮助我更好地解释这一点,比如它不适合实时操作。质量
7kjnsjlb1#
对于实时处理,您有hbase,它是hadoop生态系统的一部分:http://hbase.apache.org/apachehbase是hadoop数据库,一个分布式、可扩展的大数据存储。何时使用apache hbase?当您需要对大数据进行随机、实时读/写访问时,请使用apachehbase。这个项目的目标是在商品硬件集群上托管非常大的表——数十亿行x数百万列。apache hbase是一个开源的、分布式的、版本控制的、非关系型数据库,模仿google的bigtable:chang等人的结构化数据分布式存储系统。正如bigtable利用google文件系统提供的分布式数据存储一样,apache hbase在hadoop和hdfs之上提供了类似bigtable的功能。特征线性和模块化的可扩展性。列表项严格一致的读写。自动和可配置的表分片区域服务器之间的自动故障转移支持。使用apache hbase表支持hadoop mapreduce作业的方便基类。易于使用的javaapi进行客户端访问。用于实时查询的块缓存和bloom过滤器。通过服务器端过滤器的查询 predicate 下推thrift gateway和支持xml、protobuf和二进制数据编码选项的rest-ful web服务基于可扩展jruby(jirb)shell支持通过hadoop度量子系统将度量导出到文件或ganglia;或通过jmx它还支持原子计数器,这是hbase最强大的功能之一,可以帮助您减少对大型分析作业的需求(通过仔细规划的行键和模式设计)。
jhkqcmku2#
hadoopmapreduce不适合实时处理。但现在,这种情况正在改变。例如,storm,spark提供近实时处理功能。spark使用内存计算来实现更快的处理。它使用rdd(弹性分布式数据集)作为内存抽象。其中as storm使用了喷口(源)和螺栓(汇)的dag。这称为拓扑,拓扑保持运行。也就是说,它从喷口获取数据并将其提供给螺栓。螺栓可以将这些数据写入数据库或提供给用户。这减少了处理时间。
2条答案
按热度按时间7kjnsjlb1#
对于实时处理,您有hbase,它是hadoop生态系统的一部分:
http://hbase.apache.org/
apachehbase是hadoop数据库,一个分布式、可扩展的大数据存储。
何时使用apache hbase?
当您需要对大数据进行随机、实时读/写访问时,请使用apachehbase。这个项目的目标是在商品硬件集群上托管非常大的表——数十亿行x数百万列。apache hbase是一个开源的、分布式的、版本控制的、非关系型数据库,模仿google的bigtable:chang等人的结构化数据分布式存储系统。正如bigtable利用google文件系统提供的分布式数据存储一样,apache hbase在hadoop和hdfs之上提供了类似bigtable的功能。
特征
线性和模块化的可扩展性。
列表项
严格一致的读写。
自动和可配置的表分片
区域服务器之间的自动故障转移支持。
使用apache hbase表支持hadoop mapreduce作业的方便基类。
易于使用的javaapi进行客户端访问。
用于实时查询的块缓存和bloom过滤器。
通过服务器端过滤器的查询 predicate 下推
thrift gateway和支持xml、protobuf和二进制数据编码选项的rest-ful web服务
基于可扩展jruby(jirb)shell
支持通过hadoop度量子系统将度量导出到文件或ganglia;或通过jmx
它还支持原子计数器,这是hbase最强大的功能之一,可以帮助您减少对大型分析作业的需求(通过仔细规划的行键和模式设计)。
jhkqcmku2#
hadoopmapreduce不适合实时处理。
但现在,这种情况正在改变。例如,storm,spark提供近实时处理功能。
spark使用内存计算来实现更快的处理。它使用rdd(弹性分布式数据集)作为内存抽象。
其中as storm使用了喷口(源)和螺栓(汇)的dag。这称为拓扑,拓扑保持运行。也就是说,它从喷口获取数据并将其提供给螺栓。螺栓可以将这些数据写入数据库或提供给用户。这减少了处理时间。