首页
登录 | 注册

Google BigQuery带你走进大数据

https://www.aliyun.com/zixun/content/2_11_16274.html


大数据时代大数据这三个字被好多人经常挂在嘴边。但大于大部分普通人来说,对大数据真正的含义并不十分清晰,很多人仍处于懵懂的入门阶段。乍一看,大数据项目可能会有些吓人,尤其是如果包含了设置和管理Hadoop集群。如果你更习惯于SQL,而不是MapReduce,但是发现关系型数据库不符合分析需求。若想对大数据有一些真正的了解,Google BigQuery值得一看。它为我们提供大数据分析入门级方法。

BigQuery减少了分析大型数据集面临的一些实现挑战。价格模型促进了统计分析技能的发掘,因此可以从数据样品中导出有用的信息,而不是针对全部数据集进行蛮力分析。

有时,要用大数据工作意味着处理速度的精确。比如,如果想要确定操作同一网站的两个不同的客户群组是否不同,应该分析网站上与所有这些客户活动相关每一个登录日志。或者,可以取出一部分客户子集样例,分析这些样例之间的不同。基础统计提供了工具,可以帮助理解这种类型分析的错误率,只要错误在可接受范围内,结果对于决策制定就是有效的。

在TOP功能中可以看到这种交换,通过grouping和sorting操作返回顶行发现。可能返回近似的结果,但是这个函数通常比使用“group by”、“order by”和“"limit”的组合语句更快速。

Google BigQuery操作特性

BigQuery旨在分析数十亿行近似的数据,使用类SQL语法。它并不是完全符合SQL数据库的替代,并不适用于交易处理应用。BigQuery支持分析交互风格。使用SELECT命令构建查询,对于任何SQL开发者都应该很熟悉。

查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。正如我们所期望的大数据分析服务,可以支持统计函数,比如count、sum、average、variance和standard deviation(标准偏差)。Grouping函数和描述性统计的结合相当直接的在两个总体中比较平均数和变异数。

入门级大数据分析:Google BigQuery

联接是标准化数据模型必要的操作,但是计算昂贵。BigQuery函数中的JOIN运算符类似于SQL join,但是在联接两个表时,其中一个表必须是8MB或者压缩到更小。这种类型的限制可以进行更加有效的联接操作,因为更小的表可以有效高速缓存,联接到更大的表。如果必须联接两个大型表,可以使用JOIN EACH操作,但是性能就会更慢。

可以使用简单的浏览器界面同BigQuery进行交互操作。浏览器工具保留查询历史,提供了构造查询的工作局域。这是一种基本的工具;并不具备SQL开发者工具中全面的功能,比如MySQL Workbench和DBVisualizer。也可以通过命令行界面工作。

Google BigQuery的价格模型

通过访问Google的云资源,你可能想知道为什么你要为查询样例或者近似结果操心,毕竟,你可以在这个问题上投入更多的硬件不是吗?对,你可以,但是BigQuery基于你分析了多少数据来收费。

Google的价格模型基于存储和分析的数据总量。存储费用是每月0.12GB美元。交互查询为每处理1GB 0.035美元,包查询费用为0.02美元/GB。为了限制处理的数据量,可以限制分析的行数,包括你实际需要结果的列。BigQuery使用柱状数据存储,因此并不是所有的行数据,在一个或者更多列查询时回复。

数据存入BigQuery,使用负载工作,可以同Google Cloud Storage的数据工作,或者使用POST请求本地文件系统中的数据。文件可以格式化成为CSV或者JSON格式。压缩文件限制到1GB,但是非压缩文件能到1TB。负载工作包括多达一万个文件,但是所有文件的大小总和不能超过1TB。由于每天每个表可以拥有多达1000个负载工作,这些定额对于大多数项目不见得有实际的影响。



相关文章

  • EasyScheduler大数据调度系统架构分享
     
  • 贾扬清:我对人工智能方向的一点浅见
    阿里妹导读:作为 AI 大神,贾扬清让人印象深刻的可能是他写的AI框架Caffe ,那已经是六年前的事了.经过多年的沉淀,成为"阿里新人"的他,对人工智能又有何看法?最近,贾扬清在阿里内部分享了他的思考与洞察,欢迎共同探 ...
  • 4折购书福利,再送你畅销新书
    4折购书福利,再送你畅销新书   福利一: 扫描下方小程序选购你心仪的图书吧! 423世界读书日图书每满 100 减 50 结算时输入优惠码:UJ7UW7(实付200再减30) 可与每满 100 减 50 活动叠加使用! 也就是说只要花17 ...
  • 一份还热乎的蚂蚁金服面经(已拿Offer)!附答案!!
    本文来自我的知识星球的球友投稿,他在最近的校招中拿到了蚂蚁金服的实习生Offer,整体思路和面试题目由作者--泽林提供,部分答案由Hollis整理自知识星球<Hollis和他的朋友们>中「直面Java」板块. 经历了漫长一个月的 ...
  • 云原生的新思考,为什么容器已经无处不在了
    4月24日,中国信息通信研究院主办的首届云原生产业大会在北京举行,在<云原生数字引领未来>的主题演讲中,阿里云容器服务总监易立表示:"云原生不但可以很好的支持互联网应用,也在深刻影响着新的计算架构.新的智能数据应用.以 ...
  • 90后ACE成长记——从偏居一隅小城里走出的核心技术人
    <ACE成长记>栏目说明 名词解释: 阿里云工程师,简称 ACE (Alibaba Cloud Engineer),代表云计算的爱好者,是最"王牌"(ACE)的一群开发者,也是未来的MVP. ACE 是遍布在 ...

2020 jeepshoe.net webmaster#jeepshoe.net
13 q. 0.282 s.
京ICP备10005923号