⭐⭐⭐ Spring Boot 项目实战 ⭐⭐⭐ Spring Cloud 项目实战
《Dubbo 实现原理与源码解析 —— 精品合集》 《Netty 实现原理与源码解析 —— 精品合集》
《Spring 实现原理与源码解析 —— 精品合集》 《MyBatis 实现原理与源码解析 —— 精品合集》
《Spring MVC 实现原理与源码解析 —— 精品合集》 《数据库实体设计合集》
《Spring Boot 实现原理与源码解析 —— 精品合集》 《Java 面试题 + Java 学习指南》

摘要: 原创出处 juejin.cn/post/7120880190003085320 「程序_艺术_人生」欢迎转载,保留摘要,谢谢!


🙂🙂🙂关注**微信公众号:【芋道源码】**有福利:

  1. RocketMQ / MyCAT / Sharding-JDBC 所有源码分析文章列表
  2. RocketMQ / MyCAT / Sharding-JDBC 中文注释源码 GitHub 地址
  3. 您对于源码的疑问每条留言将得到认真回复。甚至不知道如何读源码也可以请教噢
  4. 新的源码解析文章实时收到通知。每周更新一篇左右
  5. 认真的源码交流微信群。

背景

saas业务业务未来需要业务管理、业务管理等业务能力。

为了平台系统能力、我们需要完善数据集来帮助运营分析活动效果、提升运营能力。

如果在实际过程中直接部署系统,对于用户来说,将是一个巨大的数据比较能力的服务器。我们在开发中使用折中方案完善数据分析。

Elasticsearch 与 ClickHouse

ClickHouse是一款系统列式对数据库管理的测试,我们使用ClickHouse进行了以下优势:

①ClickHouse 输入商品大

单服务器记录写入量在 50MB 到 50MB/秒,记录写入超过 60w 个数,是 ES 的 5 倍以上。

在 ES 中比较常见的写 Rejected 导致数据丢失、写入延迟等问题,在 ClickHouse 中不容易发生。

②查询速度快

网页缓存中的快速数据,在页面缓存中的快速查询单 2-30GB/查询速度;没有在的情况下,查询查询结果的查询速度和数据查询速度比 ES ClickHouse 5-30倍以上。

③点击费用比ES费用多少

Click House 的 ES 高,同样数据占用的计算机空间比 ES 的 1/0 使用 1/03 次,可以节省空间的同时,也能有效地减少碳 IO,这也是 Click 查询效率更高的原因之一。

点击使用House的内存资源,可以比用CPU的资源。

成本分析

备注:在没有任何折扣的情况下,基于阿里云分析。

环境部署

动物园管理员聚集部署

yum install java-1.8.0-openjdk-devel.x86_64
/etc/profile 配置环境变量
更新系统时间
yum install ntpdate
ntpdate asia.pool.ntp.org

mkdir zookeeper
mkdir ./zookeeper/data
mkdir ./zookeeper/logs

wget --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.7.1/apache-zookeeper-3.7.1-bin.tar.gz
tar -zvxf apache-zookeeper-3.7.1-bin.tar.gz -C /usr/zookeeper

export ZOOKEEPER_HOME=/usr/zookeeper/apache-zookeeper-3.7.1-bin
export PATH=$ZOOKEEPER_HOME/bin:$PATH

进入ZooKeeper配置目录
cd $ZOOKEEPER_HOME/conf

新建配置文件
vi zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/data
dataLogDir=/usr/zookeeper/logs
clientPort=2181
server.1=zk1:2888:3888
server.2=zk2:2888:3888
server.3=zk3:2888:3888

在每台服务器上执行,给zookeeper创建myid
echo "1" > /usr/zookeeper/data/myid
echo "2" > /usr/zookeeper/data/myid
echo "3" > /usr/zookeeper/data/myid

进入ZooKeeper bin目录
cd $ZOOKEEPER_HOME/bin
sh zkServer.sh start

卡夫卡基地部署

mkdir -p /usr/kafka
chmod 777 -R /usr/kafka
wget --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/3.2.0/kafka_2.12-3.2.0.tgz
tar -zvxf kafka_2.12-3.2.0.tgz -C /usr/kafka


不同的broker Id 设置不一样,比如 1,2,3
broker.id=1
listeners=PLAINTEXT://ip:9092
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dir=/usr/kafka/logs
num.partitions=5
num.recovery.threads.per.data.dir=3
offsets.topic.replication.factor=2
transaction.state.log.replication.factor=3
transaction.state.log.min.isr=3
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=zk1:2181,zk2:2181,zk3:2181
zookeeper.connection.timeout.ms=30000
group.initial.rebalance.delay.ms=0

后台常驻进程启动kafka
nohup /usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-start.sh /usr/kafka/kafka_2.12-3.2.0/config/server.properties >/usr/kafka/logs/kafka.log >&1 &

/usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-stop.sh

$KAFKA_HOME/bin/kafka-topics.sh --list --bootstrap-server ip:9092

$KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server ip:9092 --topic test --from-beginning

$KAFKA_HOME/bin/kafka-topics.sh --create --bootstrap-server ip:9092 --replication-factor 2 --partitions 3 --topic xxx_data

FileBeat 部署

sudo rpm --import https://packages.elastic.co/GPG-KEY-elasticsearch

Create a file with a .repo extension (for example, elastic.repo) in your /etc/yum.repos.d/ directory and add the following lines:
在/etc/yum.repos.d/ 目录下创建elastic.repo

[elastic-8.x]
name=Elastic repository for 8.x packages
baseurl=https://artifacts.elastic.co/packages/8.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

yum install filebeat
systemctl enable filebeat
chkconfig --add filebeat



FileBeat配置文件说明,坑点1(需设置keys_under_root: true)。如果不设置kafka的消息字段如下:

文件目录: /etc/filebeat/filebeat.yml

filebeat.inputs:
- type: log
enabled: true
paths:
- /root/logs/xxx/inner/*.log
json:
如果不设置该索性,所有的数据都存储在message里面,这样设置以后数据会平铺。
keys_under_root: true
output.kafka:
hosts: ["kafka1:9092", "kafka2:9092", "kafka3:9092"]
topic: 'xxx_data_clickhouse'
partition.round_robin:
reachable_only: false
required_acks: 1
compression: gzip
processors:
剔除filebeat 无效的字段数据
- drop_fields:
fields: ["input", "agent", "ecs", "log", "metadata", "timestamp"]
ignore_missing: false

nohup ./filebeat -e -c /etc/filebeat/filebeat.yml > /user/filebeat/filebeat.log &
输出到filebeat.log文件中,方便排查

clickhouse 部署

检查当前CPU是否支持SSE 4.2,如果不支持,需要通过源代码编译构建
grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"
返回 "SSE 4.2 supported" 表示支持,返回 "SSE 4.2 not supported" 表示不支持

创建数据保存目录,将它创建到大容量磁盘挂载的路径
mkdir -p /data/clickhouse
修改/etc/hosts文件,添加clickhouse节点
举例:
10.190.85.92 bigdata-clickhouse-01
10.190.85.93 bigdata-clickhouse-02

服务器性能参数设置:
cpu频率调节,将CPU频率固定工作在其支持的最高运行频率上,而不动态调节,性能最好
echo 'performance' | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

内存调节,不要禁用 overcommit
echo 0 | tee /proc/sys/vm/overcommit_memory

始终禁用透明大页(transparent huge pages)。 它会干扰内存分配器,从而导致显着的性能下降
echo 'never' | tee /sys/kernel/mm/transparent_hugepage/enabled

首先,需要添加官方存储库:
yum install yum-utils
rpm --import <https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG>
yum-config-manager --add-repo <https://repo.clickhouse.tech/rpm/stable/x86_64>

查看clickhouse可安装的版本:
yum list | grep clickhouse
运行安装命令:
yum -y install clickhouse-server clickhouse-client

修改/etc/clickhouse-server/config.xml配置文件,修改日志级别为information,默认是trace
<level>information</level>
执行日志所在目录:

正常日志
/var/log/clickhouse-server/clickhouse-server.log
异常错误日志
/var/log/clickhouse-server/clickhouse-server.err.log

查看安装的clickhouse版本:
clickhouse-server --version
clickhouse-client --password

sudo clickhouse stop
sudo clickhouse tart
sudo clickhouse start

clickhouse 部署过程中遇到的一些问题如下:

①点击house创建kafka引擎表:

CREATE TABLE default.kafka_clickhouse_inner_log ON CLUSTER clickhouse_cluster (
log_uuid String ,
date_partition UInt32 ,
event_name String ,
activity_name String ,
activity_type String ,
activity_id UInt16
) ENGINE = Kafka SETTINGS
kafka_broker_list = 'kafka1:9092,kafka2:9092,kafka3:9092',
kafka_topic_list = 'data_clickhouse',
kafka_group_name = 'clickhouse_xxx',
kafka_format = 'JSONEachRow',
kafka_row_delimiter = '\n',
kafka_num_consumers = 1;

1:clikhouse 客户端问题无法查询 kafka 引擎

不允许直接选择。要启用使用设置 stream_like_engine_allow_direct_select.(QUERY_NOT_ALLOWED)(版本 22.5.2.53(官方构建))

解决方案:

需要在clickhouse client 创建加上 --stream_like_engine_allow_direct_select 1

clickhouse-client --stream_like_engine_allow_direct_select 1 --password xxxxx

②点击房屋创建本地节点表

2:无法开启本地表宏

代码:62。DB::Exception:[10.74.244.57:9000] 上出现错误:代码:62.DB::Exception:在处理“/clickhouse/tables/default/”中的替换时,配置中没有宏“碎片” bi_inner_log_local/{shard}' at '50' 或宏在这里不受支持。(SYNTAX_ERROR)(版本 22.5.2.53(官方版本))。(SYNTAX_ERROR) (版本 22.5.2.53 (正式版))

创建本地表(使用复制去重表引擎)
create table default.bi_inner_log_local ON CLUSTER clickhouse_cluster (
log_uuid String ,
date_partition UInt32 ,
event_name String ,
activity_name String ,
credits_bring Int16 ,
activity_type String ,
activity_id UInt16
) ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/default/bi_inner_log_local/{shard}','{replica}')
PARTITION BY date_partition
ORDER BY (event_name,date_partition,log_uuid)
SETTINGS index_granularity = 8192;

解决方案:在不同的clickhouse节点上配置不同的分片,每个节点的分片名称不能一致。

<macros>
<shard>01</shard>
<replica>example01-01-1</replica>
</macros>

3:clickhouse中节点数据已经存在

代码:253。DB::Exception:出现错误:代码:253。DB::Exception:副本/clickhouse/tables/default/bi_inner_log_local/01/replicas/example01-01-1 已存在。(REPLICA_IS_ALREADY_EXIST)(版本 22.5.2.53(官方版本))。(REPLICA_IS_ALREADY_EXIST)(版本 22.5.2.53(官方构建))

解决方案:进入zookeeper客户端删除相关节点,然后再重新创建ReplicatedReplaceingMergeTree表。这样可以保障每一个clickhouse节点去消费kafka分区的数据。

③点击房屋创建聚会表

日志(根据日志_uuid 分发给数据,相同的日志_uuid 会发送到同一时间的数据分片上重发):

CREATE TABLE default.bi_inner_log_all ON CLUSTER clickhouse_cluster AS default.bi_inner_log_local
ENGINE = Distributed(clickhouse_cluster, default, bi_inner_log_local, xxHash32(log_uuid));

4:自动查询表无法查询

代码:516。DB::Exception:从 10.74.244.57:9000 接收。DB::Exception:默认值:身份验证失败:密码不正确或没有该名称的用户。(AUTHENTICATION_FAILED) (版本 22.5.2.53 (正式版))

解决方案:

<!--分布式表配置-->
<remote_servers>
<clickhouse_cluster> <!--集群名称, 可以自定义, 后面在新建库、表的时候需要用到集群名称-->
<shard>
<!--内部复制(默认false), 开启后, 在分布式表引擎下, 数据写入时-->
<!--每个分片只会去寻找一个节点写, 并不是每个都写-->
<internal_replication>true</internal_replication>
<replica>
<host>ip1</host>
<port>9000</port>
<user>default</user>
<password>xxxx</password>
</replica>
</shard>
<shard>
<internal_replication>true</internal_replication>
<replica>
<host>ip2</host>
<port>9000</port>
<user>default</user>
<password>xxxx</password>
</replica>
</shard>
</clickhouse_cluster>
</remote_servers>

④点击房屋创建物化视图

创建物化物,把查看 Kafka 消费表消费的同步 ClickHouse 表格数据表。

CREATE MATERIALIZED VIEW default.view_bi_inner_log ON CLUSTER clickhouse_cluster TO default.bi_inner_log_all AS 
SELECT
log_uuid ,
date_partition ,
event_name ,
activity_name ,
credits_bring ,
activity_type ,
activity_id
FROM default.kafka_clickhouse_inner_log;

小结:不负有心人,解决完以上所有的问题。数据流转通了!这里所有组件都是功夫文档比较新的版本,所以过程中问题的解决基本都是官方或操作手册一步一步的解决。

总结一句话:问题遇到去解决或--帮助去解决,慢慢的你的官方升华。

总结

整个部署的过程中有一个坑,特别是filebeat yml的参数设置和clickhouse的配置说明。

很久没有更新了,经常看到博客35岁以后办的问题。说实话我自己也不会好以后怎么办,核心还是持续的&输出。不断的博客制造了自己的护城河,不管是技术专家、业务专家、架构、管理等。

个人建议如果能经常写代码就奋战一线,管理彻底与公司绑定。

如果所在行业的公司还是已经选择了整体的商业影响力,个人觉得可以奋战在一线,未来的工作。考量更多的影响力、感觉、技术架构。现在的我 35,从容的面对一天。

文章目录
  1. 1. 背景
  2. 2. Elasticsearch 与 ClickHouse
  3. 3. 成本分析
  4. 4. 环境部署
    1. 4.0.1. 动物园管理员聚集部署
    2. 4.0.2. 卡夫卡基地部署
    3. 4.0.3. FileBeat 部署
    4. 4.0.4. clickhouse 部署
  • 5. 总结