点击流数据分析

mpgws1up  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(474)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

三个月前关门了。
改进这个问题
我遇到了一个有趣的场景,叫做clickstream数据分析。我只知道什么是点击流数据。我想了解更多关于这一点和不同场景的信息,在这些场景中,它可以用于业务的最佳利益,以及我们在每个场景的不同步骤中处理数据所需的一组工具。

iyr7buue

iyr7buue1#

也许你可以看看edx上的spark课程,它们使用带有spark的clickstream示例进行分析和机器学习。

fcipmucu

fcipmucu2#

以下可以从较高的层次了解大多数公司的业务:
接收rest-ful api以供客户端传入事件
给Kafka打电话
spark流来进行实时计算
gobblin(或类似的)将数据从kafka泵送到hdfs,然后在hdfs上运行批处理m/r作业
实时作业和批处理作业都将计算出的度量值注入druid(lambda架构)
最终用户报告/ Jmeter 板的ui
nagios(或类似)用于警报
度量聚合框架,它通过堆栈中的每一层跟踪事件
根据我的经验,最好从相当成熟的工具开始,做一个端到端的poc,然后看看其他可以使用的工具。例如,当您的管道开始成熟时,您甚至可以有一个异步摄取api(用scala/akka编写)、kafka流来进行内联事件转换、flink用于实时和批处理作业等。

ozxc1zmp

ozxc1zmp3#

什么是clickstream数据?
这是一个用户在网上冲浪时留下的虚拟轨迹。clickstream是用户在internet上活动的记录,包括用户访问的每个网站和每个网站的每个页面、用户在某个页面或站点上停留的时间、访问页面的顺序、用户参与的任何新闻组,甚至用户发送和接收的邮件的电子邮件地址。ISP和个人网站都能够跟踪用户的点击流。

clickstream数据可能包括以下信息:浏览器高度宽度、浏览器名称、浏览器语言、设备类型(台式机、笔记本电脑、平板电脑、移动设备)、收入、日期、时间戳、ip地址、url、购物车中添加的产品数、删除的产品数、州、国家、帐单邮政编码、装运邮政编码等。
如何从clickstream数据中提取更多信息?
在web分析领域,网站访问者和潜在客户相当于基于主题的数据集中的主题。考虑下面的clickstream数据示例,一个基于主题的数据集是按行和列(如excel电子表格)构造的—数据集的每一行都是一个唯一的主题,每一列都是关于该主题的一些信息。如果你想做基于客户的分析,你需要一个基于客户的数据集。在最细粒度的形式中,clickstream数据如下图所示。来自同一个访问者的点击被用颜色编码在一起。

数据科学家们从点击流数据中获得了更多的特征。对于每个访问者,我们在一次访问中有几个点击,在很长一段时间内,我们有一个访问集合。我们需要一种在访问者级别组织数据的方法。像这样:

显然,有许多不同的方法可以聚合数据。对于页面浏览量、收入和视频浏览量等数字数据,我们可能希望使用平均值或合计值。通过这样做,我们可以获得更多关于客户行为的信息。如果你观察汇总图表,你可以很容易地看出公司周五的收入增加了。
一旦您获得了一个基于客户的数据集,就有许多不同的统计模型和数据科学技术可以让您在访客级别访问更深入、更有意义的分析。数据科学咨询公司在利用这些方法来:
预测哪些客户流失风险最高,并确定影响该风险的因素(使您能够积极主动地保留客户群)
了解个人客户的品牌意识水平
针对客户提供个性化、相关的服务
预测哪些客户最有可能转换,并从统计学上确定您的网站是如何影响该决策的
确定访问者最有可能响应的网站内容类型,并了解内容参与如何推动高价值访问
定义访问站点的访问者的不同角色的配置文件和特征,并了解如何与他们互动。
您可能还对以下课程感兴趣:
https://www.coursera.org/learn/process-mining?recoorder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsemail~记录电子邮件\u 2016 \u 06 \u 26 \u 17%3a57
它是关于过程挖掘的,我认为点击跟踪分析是一个特例。

相关问题