这是悟空的第 149 篇原创文章 官网:www.passjava.cn 你好,我是悟空呀,我被憧憬小哥催更了。 儿童节、端午节前发一篇,祝大家双节快乐~ 本文目录如下:
前言通过本篇内容,你可以学到如何解决 Logstash 的常见问题、理解 Logstash 的运行机制、集群环境下如何部署 ELK Stack。 在使用 Logstash 遇到了很多坑,本篇也会讲解解决方案。
一、部署架构图上次我们聊到了 ELK Stack 的搭建: 最近悟空正在我们的测试环境部署这一套 ELK,发现还是有很多内容需要再单独拎几篇出来详细讲讲的,这次我会带着大家一起来看下 ELK 中的 Logstash 组件的落地玩法和踩坑之路。 测试环境目前有 12 台机器,其中 有 4 台给后端微服务、Filebeat、Logstash 使用,3 台给 ES 集群和 Kibana 使用。 部署拓扑图如下: 部署说明:
二、Logstash 用来做什么?你是否还在苦恼每次生产环境出现问题都需要远程到服务器查看日志文件? 你是否还在为了没有统一的日志搜索入口而烦心? 你是否还在为从几十万条日志中搜索关键信息而苦恼? 没错,Logstash 它来啦,带着所有的日志记录来啦。 Logstash 它是帮助我们收集、解析和转换日志的。作为 ELK 中的一员,发挥着很大的作用。 当然 Logstash 不仅仅用在收集日志方面,还可以收集其他内容,我们最熟悉的还是用在日志方面。 三、Logstash 的原理3.1 从 Logstash 自带的配置说起Logstash 的原理其实还比较简单,一个输入,一个输出,中间有个管道(不是必须的),这个管道用来收集、解析和转换日志的。如下图所示: Logstash 运行时,会读取 Logstash 的配置文件,配置文件可以配置输入源、输出源、以及如何解析和转换的。 Logstash 配置项中有两个必需元素,输入(inputs)和输出(ouputs),以及一个可选元素 filters 过滤器插件。input 可以配置来源数据,过滤器插件在你指定时修改数据,output 将数据写入目标。 我们来看下 Logstash 软件自带的一个示例配置,文件路径:\logstash-7.6.2\config\logstash-sample.conf 是不是很简单,一个 input 和 一个 output 就搞定了。如下图所示: 但是这种配置其实意义不大,没有对日志进行解析,传到 ES 中的数据是原始数据,也就是一个 message 字段包含一整条日志信息,不便于根据字段搜索。 3.2 Input 插件配置文件中 input 输入源指定了 beats,而 beats 是一个大家族,Filebeat 只是其中之一。对应的端口 port = 5044,表示 beats 插件可以往 5044 端口发送日志,logstash 可以接收到通过这个端口和 beats 插件通信。 在部署架构图中,input 输入源是 Filebeat,它专门监控日志的变化,然后将日志传给 Logstash。在早期,Logstash 是自己来采集的日志文件的。所以早期的日志检索方案才叫做 ELK,Elasticsearch + Logstash + Kibana,而现在加入了 Filebeat 后,这套日志检索方案属于 ELK Stack,不是 ELKF,摒弃了用首字母缩写来命名。 另外 input 其实有很多组件可以作为输入源,不限于 Filebeat,比如我们可以用 Kafka 作为输入源,将消息传给 Logstash。具体有哪些插件列表,可以参考这个 input 插件列表[1] 3.3 Filter 插件而对于 Logstash 的 Filter,这个才是 Logstash 最强大的地方。Filter 插件也非常多,我们常用到的 grok、date、mutate、mutiline 四个插件。 对于 filter 的各个插件执行流程,可以看下面这张图: 3.3.1 日志示例我以我们后端服务打印的日志为例,看是如何用 filter 插件来解析和转换日志的。 logback.xml 配置的日志格式如下:
日志格式解释如下:
通过执行代码 log.info("xxx") 后,就会在本地的日志文件中追加一条日志。 3.3.2 打印的日志内容从服务器拷贝出了一条日志,看下长什么样,有部分敏感信息我已经去掉了。
那么 Logstash 如何针对上面的信息解析出对应的字段呢?比如如何解析出打印日志的时间、日志等级、日志信息? 3.3.3 grok 插件这里就要用到 logstash 的 filter 中的 grok 插件。filebeat 发送给 logstash 的日志内容会放到message 字段里面,logstash 匹配这个 message 字段就可以了。配置项如下所示:
大家发现没,上面的 匹配 message 的正则表达式还是挺复杂的,这个是我一点一点试出来的。Kibana 自带 grok 的正则匹配的工具,路径如下:
我们把日志和正则表达式分别粘贴到上面的输入框,点击 Simulate 就可以测试是否能正确匹配和解析出日志字段。如下图所示: 有没有常用的正则表达式呢?有的,logstash 官方也给了一些常用的
比如可以用 IP 常量来代替正则表达式 好了,经过正则表达式的匹配之后,grok 插件会将日志解析成多个字段,然后将多个字段存到了 ES 中,这样我们可以在 ES 通过字段来搜索,也可以在 kibana 的 Discover 界面添加列表展示的字段。
再加一个 match 就可以了。
当任意一个 message 匹配上了这个正则,则 grok 执行完毕。假如还有第三种格式的 message,那么虽然 grok 没有匹配上,但是 message 也会输出到 ES,只是这条日志在 ES 中不会展示 logTime、level 等字段。 3.3.4 multiline 插件还有一个坑的地方是错误日志一般都是很多行的,会把堆栈信息打印出来,当经过 logstash 解析后,每一行都会当做一条记录存放到 ES,那这种情况肯定是需要处理的。这里就需要使用 multiline 插件,对属于同一个条日志的记录进行拼接。 3.3.4.1 安装 multiline 插件multiline 不是 logstash 自带的,需要单独进行安装。我们的环境是没有外网的,所以需要进行离线安装。 介绍在线和离线安装 multiline 的方式:
在 logstash 根目录执行以下命令进行安装。
在有网的机器上在线安装插件,然后打包。
拷贝到服务器,执行安装命令。
安装插件需要等待 5 分钟左右的时间,控制台界面会被 hang 住,当出现 检查下插件是否安装成功,可以执行以下命令查看插件列表。当出现 multiline 插件时则表示安装成功。
3.3.4.2 使用 multiline 插件如果要对同一条日志的多行进行合并,你的思路是怎么样的?比如下面这两条异常日志,如何把文件中的 8 行日志合并成两条日志? 思路是这样的:
按照这个思路,multiline 的配置如下:
时间的正则表达式就是这个 pattern 字段,大家可以根据自己项目中的日志的时间来定义正则表达式。
参考 multiline 官方文档[2] 3.3.5 多行被拆分
如下图所示,第二条日志有 100 多行,其中最后一行被错误地合并到了第三条日志中。 为了解决这个问题,我是通过配置 filebeat 的 multiline 插件来截断日志的。为什么不用 logstash 的 multiline 插件呢?因为在 filter 中使用 multiline 没有截断的配置项。filebeat 的 multiline 配置项如下:
配置项说明:
我们重点关注 max_lines 属性,表示最多保留多少行后执行截断,这里配置 50 行。 注意:filebeat 和 logstash 我都配置了 multiline,没有验证过只配置 filebeat 的情况。参考 Filebeat 官方文档[3] 3.3.6 mutate 插件当我们将日志解析出来后,Logstash 自身会传一些不相关的字段到 ES 中,这些字段对我们排查线上问题帮助不大。可以直接剔除掉。
这里我们就要用到 mutate 插件了。它可以对字段进行转换,剔除等。 比如我的配置是这样的,对很多字段进行了剔除。
注意:一定要把 log.offset 字段去掉,这个字段可能会包含很多无意义内容。 关于 Mutate 过滤器它有很多配置项可供选择,如下表格所示: 参考 Mutate 参考文章[4] 3.3.7 date 插件到 kibana 查询日志时,发现排序和过滤字段 这里我们就要用到 上面的 grok 插件已经成功解析出了打印日志的时间,赋值到了
但是经过测试写入到 ES 的 我们到 ES 中查询记录后,发现 我们可以通过增加配置 timezone => "Asia/Shanghai" 来解决这个问题。修改后的配置如下所示:
调整后,再加一条日志后查看结果,Kibana 显示 @timestamp 字段和日志的记录时间一致了。 3.4 Output 插件Logstash 解析和转换后的日志最后输出到了 Elasticsearch 中,由于我们 ES 是集群部署的,所以需要配置多个 ES 节点地址。
注意这里的 index 名称 qa_log 必须是小写,不然写入 es 时会报错。 3.5 完整配置logstah 配置文件内容如下:
四、Logstash 怎么跑起来的4.1 Logstash 如何运行的你会好奇 Logstash 是怎么运行起来的吗? 官方提供的启动方式是执行 logstash -f weblog.conf 命令来启动,当执行这个命令的时候其实会调用 Java 命令,以及设置 java 启动参数,然后传入了一个配置文件 weblog.conf 来启动 Logstash。
当启动完之后,我们通过命令来看下 Logstash 的运行状态
执行结果如下图所示,可以看到用到了 Java 命令,设置了 JVM 参数,用到了 Logstash 的JAR 包,传入了参数。 所以建议 Logstash 单独部署到一台服务器上,避免服务器的资源被 Logstash 占用。 Logstash 默认的 JVM 配置是 -Xms1g -Xmx1g,表示分配的最小和最大堆内存大小为 1 G。 那么这个参数是在哪里配置的呢?全局搜索下 Xms1g,找到是在这个文件里面配置的,config\jvm.options,我们可以修改这里面的 JVM 配置。 我们可以调整 Logstash 的 JVM 启动参数,来优化 Logstash 的性能。 另外 Kibana 上面还可以监控 Logstash 的运行状态(不在本篇讨论范围)。 4.2 Logstash 的架构原理本内容参考这篇 Logstash 架构[5] Logstash 有多个 input,每个 input 都会有自己的 codec。 数据会先存放到 Queue 中,Logstash 会把 Queue 中的数据分发到不同的 pipeline 中。 然后每一个 pipeline 由 Batcher、filter、output 组成 Batcher 的作用是批量地从Queue中取数据。Batcher 可以配置为一次取一百个数据。 五、Logstash 宕机风险5.1 Logstash 单点部署的风险因为 Logstash 是单点部署到一台服务器上,所以会存在两个风险:
对于第一个问题,可以安装 Keepalived 软件来保证高可用。另外即使没有安装,当手动启动 Logstash 后,Logstash 也能将未及时同步的日志写入到 ES。 对于第二个问题,所在的机器宕机了,那可以通过安装两套 Logstash,通过 keepalived 提供的虚拟 IP 功能,切换流量到另外一个 Logstash。关于如何使用 Keepalived,可以参考之前的 实战 MySQL 高可用架构 对于第三个问题,就是把启动 Logstash 的命令放到开机启动脚本中就可以了,但是存在以下问题:
接下来我们来看下怎么进行配置开机自启动 Logstash。 5.2 开机启动 Logstash5.2.1 创建自动启动脚本建立rc-local.service文件
将下列内容复制进 rc-local.service 文件
创建文件 rc.local
添加启动脚本到启动文件中
5.2.2 修改 Java 运行环境因在开机启动中,logstash 找不到 java 的运行环境,所以需要手动配置下 logstash。
在 setup_java() 方法的第一行加入 JAVA_HOME 变量,JAVA_HOME 的路径需要根据自己的 java 安装目录来。
5.2.3 权限问题给 rc.local 加上权限,启用服务
然后重启机器,查看 logstash进程是否正在运行,看到一大串 java 运行的命令则表示 logstash 正在运行。
六、总结本篇讲解了 Logstash 在集群环境下的部署架构图、Logstash 遇到的几大坑、以及 Logstash 的运行机制和架构原理。 Logstash 还是非常强大的,有很多功能未在本篇进行讲解,本篇也是抛砖引玉,感兴趣的读者朋友们可以加我好友 passjava 共同探索。 更多好文请查看: 巨人的肩膀
参考资料[1]input 插件列表: https://www./guide/en/logstash/current/input-plugins.html [2]multiline 官方文档: https://www./guide/en/logstash/current/plugins-codecs-multiline.html#plugins-codecs-multiline-negate [3]Filebeat 官方文档: https://www./guide/en/beats/filebeat/current/multiline-examples.html [4]Mutate 参考文章: https://blog.csdn.net/UbuntuTouch/article/details/106466873 [5]Logstash 架构: https://jenrey.blog.csdn.net/article/details/107122930 - END - |
|
来自: 昵称10087950 > 《中间件》