大数据相关技术

fengbin2005

浏览: 1704566 次

最近访客更多访客>>

mhx1535

aininim

huangyongxing310

chenjinbo1983

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

说大数据的技术还是要先提Google，Google 新三辆马车，Spanner, F1, Dremel

Spanner：高可扩展、多版本、全球分布式外加同步复制特性的谷歌内部数据库，支持外部一致性的分布式事务;设计目标是横跨全球上百个数据中心,覆盖百万台服务器,包含万亿条行记录!(Google就是这么霸气^-^)

F1: 构建于Spanner之上,在利用Spanner的丰富特性基础之上,还提供分布式SQL、事务一致性的二级索引等功能,在AdWords广告业务上成功代替了之前老旧的手工MySQL Shard方案。

Dremel: 一种用来分析信息的方法，它可以在数以千计的服务器上运行，类似使用SQL语言，能以极快的速度处理网络规模的海量数据(PB数量级)，只需几秒钟时间就能完成。

Cassandra

大数据架构中，Cassandra的主要作用就是存储结构化数据。DataStax的Cassandra是一种面向列的数据库，它通过分布式架构提供高可用性及耐用性的服务。它实现了超大规模的集群，并提供一种称作“最终一致性”的一致性类型，这意味着在任何时刻，在不同服务器中的相同数据库条目可以有不同的值。

SQL on Hadoop

开源社区业出现了很多 SQL-on-Hadoop的项目，着眼跟一些商业的数据仓库系统竞争。包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill。有些是基于Google Dremel设计。

Impala

Cloudera公司主导开发的新型查询系统，它提供SQL语义，能够查询存储在Hadoop的HDFS和HBase中的PB级大数据，号称比Hive快5-10倍，但最近被Spark的风头给罩住了，大家还是更倾向于后者。

Drill

Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式系统。

Druid在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进行任意的探索分析。

Berkeley Data Analytics Stack