clickhouse_参数配置(持续更新)

clickhouse 参数配置(持续更新)

  • 远程访问
  • 内存限制
  • 设置数据目录

https://clickhouse.yandex/docs/en/operations/configuration_files/


Centos7源码编译安装Clickhouse

Centos7 编译安装Clickhouse

  1. 检查是否支持SSE4.2
  2. 安装依赖项
  3. 安装高版本 gcc
  4. 安装cmake 3
  5. 源码安装Clickhouse
  6. 启动服务

Hbase Shell 常用命令

HBase是一个分布式的、面向列的开源数据库

Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。Hbase被分区为表格,表格又被进一步分割为列簇。列簇必须使用schema定义,列簇将某一类型列集合起来(列不要求schema定义),每一个 key/value对在Hbase中被定义为一个cell,每一个key由row-key,列簇、列和时间戳。在Hbase中,行是key/value映射的集合,这个映射通过row-key来唯一标识。Hbase利用Hadoop的基础设施,可以利用通用的设备进行水平的扩展。

Hive是一种类SQL的引擎,并且运行MapReduce任务。Hive适合用来对一段时间内的数据进行分析查询
Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。Hbase非常适合用来进行大数据的实时查询

HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在shell中执行hbase shell就可以进入命令行界面


转化漏斗的基本实现

转化漏斗的基本实现

参照 clickhouse-presentation funnel 实现:
https://github.com/yandex/clickhouse-presentations/blob/master/meetup9/funnels.pdf

测试环境:单机 Intel Xeon L5520,内存16G(配置是不是很穷呢😭)
样本数据:易观OLAP大赛Demo数据,官方说6亿,17年1月和2月的数据,我实际下载数据总条数3亿左右,只有1月的数据,可能下载过程丢了。。。

测试项

  • 计算2017年1月份中,依次有序触发“搜索商品”、“查看商品”、“生成订单”的用户转化情况,且时间窗口为1天
  • 计算2017年1月和2月份中,依次有序触发“登陆”、“搜索商品”、“查看商品”、“生成订单”、“订单付款”的用户转化情况, 且时间窗口为7天,“搜索商品”事件的content属性为Apple,“浏览商品”事件的price属性大于5000。

原题中,有时间窗口概念,clickhouse现有原生聚合函数无法支持,所以到后面实现;下载的数据没有二月份的,而且机器配置有点低,测试的时候好几次内存不够分配


Clickhouse Tutorial

Clickhouse tutorial

ClickHouse is an open source column-oriented database management system capable of real time generation of analytical data reports using SQL queries.

clickhousegif

参照官网教程:https://clickhouse.yandex/tutorial.html

单节点,测试数据为 1987到2015 美国民用航班数据,1.66亿rows

  • single server
  • use USA civil flights data since 1987 till 2015
  • contains 166 millions rows, 63 Gb of uncompressed data

我的测试基于 centos6.9

其他系统安装见:official Docker images of ClickHouse


Clickhouse_Introduce

Clickhouse

clickhousegif

ClickHouse is an open source column-oriented database management system capable of real time generation of analytical data reports using SQL queries.

官网:https://clickhouse.yandex/
中文社区:http://clickhouse.com.cn
官方博客:https://yandex.com/blog/clickhouse

  • Blazing Fast
  • Linearly Scalable
  • Hardware Efficient
  • Fault Tolerant
  • Feature Rich
  • Highly Reliable
  • Simple and Handy

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×