spark+cassandra性能相关问题(java代码)

jecbmhm3 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(383)

我使用cassandra作为我的垃圾场，在这里我有多个作业运行来处理数据和更新不同的系统。以下是与作业相关的筛选器
工作1。基于活动标志的数据过滤，更新日期时间和到期时间，并对过滤后的数据进行处理。
工作2。基于更新\日期\时间的数据过滤器处理数据
工作3。基于创建日期时间和活动标志的数据过滤器
运行where条件的db列是（一个查询中的一个或多个列）
活动->是/否
创建日期->时间戳
到期时间->时间戳
更新日期->时间戳
我对这些条件的问题是：-
我应该如何形成我的Cassandra主键？因为我看不到任何方法来实现这个唯一性（id是存在的，但我不需要它来处理数据）。
如果我使用表扫描对Spark代码进行过滤，我甚至需要主键吗？
考虑到数百万条记录的处理。

cassandra apache-spark spark-cassandra-connector

来源：https://stackoverflow.com/questions/63015618/perfomance-related-question-on-spark-cassandra-java-code

1条答案

按热度按时间

oaxa6hgo1#

回答您的问题-您需要一个主键，即使它只包含分区键：-）
更详细的答案实际上取决于这些作业运行的频率、总体数据量、集群中的节点数、使用的硬件等。通常，我们会尽可能多地向cassandra推送过滤，因此它只返回相关数据，而不是所有数据。最有效的过滤发生在第一个集群列上，例如，如果我只想处理新创建的条目，那么我可以使用具有以下结构的表：

create table test.test (
  pk int,
  tm timestamp,
  c2 int,
  v1 int,
  v2 int,
  primary key(pk, tm, c2));

然后我可以使用以下方法仅获取新创建的条目：

import org.apache.spark.sql.cassandra._
val data = spark.read.cassandraFormat("test", "test").load()
val filtered = data.filter("tm >= cast('2019-03-10T14:41:34.373+0000' as timestamp)")

或者我可以在给定的时间段内获取条目：

val filtered = data.filter("""ts >= cast('2019-03-10T14:41:34.373+0000' as timestamp)
  AND ts <= cast('2019-03-10T19:01:56.316+0000' as timestamp)""")

可以通过执行 explain 并检查 PushedFilters 第节-标记为的条件 * 将在Cassandra那边被处决。。。
但并不总是可以设计表来匹配所有查询，因此需要为执行频率最高的作业设计主键。就你而言， update_date_time 可能是一个很好的候选，但是如果您将其作为集群列，那么在更新它时您需要小心—您需要以批处理的方式执行更改，如下所示：

begin batch
delete from table where pk = ... and update_date_time = old_timestamp;
insert into table (pk, update_date_time, ...) values (..., new_timestamp, ...);
apply batch;

或者类似的。

赞(0）回复(0）举报 2021-05-27

我来回答

spark+cassandra性能相关问题(java代码)

1条答案

相关问题

热门标签

最新问答