谷歌分析-获取原始数据日志

moiiocjp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(4)|浏览(204)

我有一个应用程序可以将数据发送到谷歌分析。我对在hadoop集群上访问和存储这些数据很感兴趣。我猜这些原始数据将以日志的形式出现。特别是,我想看看用户的id,用户所做的搜索和搜索选项,他/她决定支付的应用程序。
我该怎么做?我是一个全新的ga和我不是一个谁设置了ga的应用程序。我只是想看看是否有一种方法可以访问这些原始数据。
我想补充一点,我不能使用大查询,因为我们没有访问它。而建立ga的人对升级到universal analytics不感兴趣。
任何帮助/想法/建议都将不胜感激。

ymzxtsji

ymzxtsji1#

要逐点获取ga数据,您可以通过一种使您能够将数据连接在一起的方式进行查询。
首先,您需要准备ga中的数据,因此在发送的每次命中时,将一些散列值或clientid+一些时间戳添加到自定义维度中。这将使您能够联接每个查询结果。
e、 g.(这是我们在scitylana的工作方式)下面的脚本与ga的跟踪脚本挂钩,并确保每次命中都包含一个键,以便稍后缝合查询结果

<script>
var BindingsDimensionIndex = CUSTOM DIMENSION INDEX HERE;
var Version = 1;

function overrideBuildTask() {
    var c = window[window['GoogleAnalyticsObject'] || 'ga'];
    var d = c.getAll();
    if (console) { console.log('Found ' + d.length + ' ga trackers') }
    for (var i = 0; i < d.length; i++) {
        var e = d[i]; var f = e.get('name');
        if (console) { console.log(f + ' modified') }
        var g = e.get('buildHitTask');
        if (!e.buildHitTaskIsModified) {
            e.set('buildHitTask', function(a) {
            window['_sc_order'] = typeof window['_sc_order'] == 'undefined' ? 0 : window['_sc_order'] + 1;
                var b = ['sl=' + Version, 'u=' + e.get('clientId'), 't=' + (new Date().getTime() + window['_sc_order'])].join('&');
                a.set('dimension' + BindingsDimensionIndex, b);
                g(a);
                if (console) {
                    console.log(f + '.' + a.get('hitType') + '.set.customDimension' + BindingsDimensionIndex + ' = ' + b)
                }
            });
            e.buildHitTaskIsModified = true
        }
    }
}
window.ga = window.ga || function() {
    (ga.q = ga.q || []).push(arguments);
    if (arguments[0] === 'create') { ga(overrideBuildTask) }
};
ga.l = +new Date();

</script>

当然,现在您需要创建一些脚本来连接从ga中获得的所有结果。

pengsaosao

pengsaosao2#

你可以得到聚合数据,即数据,你可以看到你的谷歌分析帐户,使用谷歌分析api。要获得原始数据,您需要成为高级用户(每年的成本约为15万美元)。高级用户可以导出到googlebigquery,并从那里到任何你想要的地方。

flseospp

flseospp3#

既然我们应该回答最初的问题,那么除了复制服务器呼叫系统之外,没有办法获得实际的原始google分析日志。
换句话说,您需要使用analytics.js脚本的修改副本来指向可以收集服务器调用的托管Web服务器。
长话短说,你想你的网站捕捉点击到http://www.yourdatacollectionserver.com/collect?v=1&t=pageview[…]而不是http://www.google-analytics.com/collect?v=1&t=pageview[...]
这是很容易部署使用标签管理器,如谷歌的gtm,以及正常的谷歌分析标签。
这将有效地在您的web服务器中创建日志条目,您可以使用etl、snowplow或splunk或您喜爱的python/perl/ruby文本解析引擎来处理这些条目。
然后由您将实际的原始日志处理为可管理的日志。在你问之前,这不是追溯。

lsmepo6l

lsmepo6l4#

没有办法拿到日志,但是。。
谷歌分析api可以让你从系统中提取数据。
你所能做的是有限的:
每个请求限制为7个维度和10个度量。
每个配置文件(视图)每天也有10k请求的配额。
您正在谈论的一些信息不可用。除非谷歌分析账户设置正确。
数据仍将以某种方式聚合。api中可用的最小时间单位是分钟,因此您将无法获得带有时间戳的原始数据。
值得注意的是,专业的google分析客户可以将原始数据从ga导出到big query。从bigquery导出数据是免费的,但是存储和查询处理是根据使用情况定价的。
溢价分析在一个合理的价格为一个统一的年费$150000

相关问题