大数据周会-本周学习内容总结012

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

开会时间2023.05.07 16:00 线下会议

目录

01【es数据同步至mysql】

1.1【在es中插入数据后能够同步到mysql中】

1.2【修改与删除es中的数据】

02【nifi】

2.1【Nifi的单机及分布式集群部署】

2.2【nifi集群getFile简单使用nifi】

2.3【nifi使用案例】

03【ruoyi学习】

04【spark学习】

05【es数据同步bug记录】

06【可视化报表】


01【es数据同步至mysql】

1.1【在es中插入数据后能够同步到mysql中】

经过测试可以实现如下功能使用postman工具的“PUT”请求在es中插入数据后数据能够同步至MySQL数据库中。

input {
	elasticsearch {
		hosts => ["hadoop100:9200"]
		index => "test_user_info"
		query => '{ "query": { "match_all": {} } }'
		schedule => "* * * * *"
	}
}

output {
	jdbc {
		driver_jar_path => "/opt/jar/mysql-connector-java-8.0.21.jar"
		driver_class => "com.mysql.cj.jdbc.Driver"
		connection_string => "jdbc:mysql://hadoop100:3306/newsManagerEs?useSSL=true&useUnicode=true&characterEncoding=utf8&serverTimezone=GMT&user=root&password=123456"
		statement => ["INSERT INTO user_info (user_id, user_name, user_pwd, create_time, update_time, status) VALUES (?, ?, ?, STR_TO_DATE(?, '%Y-%m-%dT%H:%i:%s.%fZ'), STR_TO_DATE(?, '%Y-%m-%dT%H:%i:%s.%fZ'), ?)", "[user_id]", "[user_name]", "[user_pwd]", "[create_time]", "[update_time]", "[status]"]
	}
}

1.2【修改与删除es中的数据】

修改数据不成功

删除数据不成功

想要实现修改与删除操作必须要修改logstash配置文件中的sql语句。

02【nifi】

nifi任务支持什么端到什么端ftp\mysql\hadoop\spark跑几个小demo。

2.1【Nifi的单机及分布式集群部署】

  1. zk.sh start
  2. /opt/module/nifi/bin/nifi.sh start
  3. /opt/module/nifi/bin/nifi.sh status

2.2【nifi集群getFile简单使用nifi】

2.3【nifi使用案例】

nifi任务支持什么端到什么端ftp\mysql\hadoop\spark跑几个小demo。

  1. 案例1实现同步文件到hdfs
  2. 案例2离线同步mysql数据到hdfs
  3. 案例3实时监控kafka数据到hdfs

03【ruoyi学习】

需要的软件

  1. Gitee
  2. MySQL
  3. Redis
  4. Node.js
  5. Jetbrains IntelliJ IDEA

  1. 主要学习若依admin与system模块。
  2. 实现数据库中`sys_notice`数据表的增删改查掌握基本的springboot知识。模仿已实现的模块参考controller使用postman测试接口。
  3. 运行ruoyi项目后在浏览器中按F12查看Fetch/XHR的请求数据。

04【spark学习】

  1. 笔记01【SparkCore概述、快速上手、运行环境、运行架构】
  2. 笔记02【SparkCore核心编程RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子】
  3. 笔记03【SparkCore核心编程RDD-转换算子-案例实操】
  4. 笔记04【SparkCore核心编程RDD-行动算子-序列化-依赖关系-持久化-分区器-文件读取与保存】
  5. 笔记05【SparkCore核心编程累加器、广播变量】
  6. 笔记06【SparkCore案例实操电商网站】

05【es数据同步bug记录】

[2023-04-24T09:22:01,433][ERROR][logstash.outputs.jdbc    ][main][0182513607343e6e9911bb0ce7f70a8d51891bc7ebc7bc9b1f020782c6b64fe5] JDBC - Exception. Not retrying {:exception=>#<Java::ComMysqlCjJdbcExceptions::MysqlDataTruncation: Data truncation: Incorrect datetime value: '2020-11-25T08:26:23.000Z' for column 'create_time' at row 1>, :statement=>"INSERT INTO item_user (item_user_id, user_id, item_id, create_time, update_time, status) VALUES (?, ?, ?, ?, ?, ?)", :event=>"{\"item_user_id\":11,\"item_id\":32,\"update_time\":\"2020-11-25T08:26:23.000Z\",\"create_time\":\"2020-11-25T08:26:23.000Z\",\"user_id\":1,\"@timestamp\":\"2023-04-18T15:37:01.625721212Z\",\"status\":1,\"type\":\"item_user\",\"@version\":\"1\"}"}

06【可视化报表】

  1. https://ajreport.beliefteam.cn/index.html
  2. http://cola.icelery.fun/
  3. https://vue.mtruning.club/#/project/items

2023.04.09反爬虫机制

es到MySQL

数据表分层次
es存储JSON
es三层拆开表

ea中的json数据分好几层数据如何存储到MySQL。

listMySQL不支持。

通过生成多张数据表对应es多层数据

逻辑功能

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6