大数据 - 网站分类

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库（一）云上云下数据同步方案设计

引言在数据驱动的世界中，企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。 Apache EMR（E ...

用DolphinScheduler轻松实现Flume数据采集任务自动化！

转载自天地风雷水火山泽目的因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须 ...

对接HiveMetaStore，拥抱开源大数据

本文分享自华为云社区《对接HiveMetaStore，拥抱开源大数据》，作者：睡觉是大事。 1. 前言适用版本：9.1.0及以上在大数据融合分析时代，面对海量的数据以及各种复杂的查询，性能是我们使用一款数据处理引擎最重要的考量。而GaussDB(DWS)服务有着强大的计算引擎，其计算性能优于MR ...

指标+AI：迈向智能化，让指标应用更高效

近日，以“Data+AI，构建新质生产力”为主题的袋鼠云春季发布会圆满落幕，大会带来了一系列“+AI”的数字化产品与最新行业沉淀，旨在将数据与AI紧密结合，打破传统的生产力边界，赋能企业实现更高质量、更高效率的数字化发展。会上，袋鼠云业务总经理申杭带来了以“指标+AI：迈向智能化，让指标应用更高效” ...

手把手教你掌握SeaTunnel k8s运行Zeta引擎本地模式的技巧

转载自小虾米0.0 导读：随着Kubernetes的普及和发展，越来越多的企业和团队开始使用Kubernetes来管理和部署应用程序。然而，Kubernetes的默认工作方式可能不是最佳的选择，尤其是在需要更高效、更可靠的应用程序部署和管理能力时。因此，SeaTunnel提供了一种运行Zeta引擎( ...

告别手动调度，海豚调度器 3.1.x 集群部署让你轻松管理多机！

转载自第一片心意 1 前言由于海豚调度器官网的集群部署文档写的较乱，安装过程中需要跳转到很多地方进行操作，所以自己总结了一篇可以直接跟着从头到尾进行操作的文档，以方便后续的部署、升级、新增节点、减少节点的相关操作。 2. 提前准备 2.1. 基础组件 JDK：下载JDK (1.8+)，安装并配置 ...

玩转云端 | 拥有HBlock这项“存储盘活绝技”，数据中心也能“热辣瘦身”！

夏天马上就要到了，“瘦身”不光是特定人群的需求，也是数据中心的需求。构建轻量化、低碳化、高性价比的新型数据中心，更有效地支撑经济社会数字化转型，已成为业界主流趋势。如何让数据中心“热辣瘦身”？轻量级存储集群控制器——天翼云存储资源盘活系统HBlock必不可少！ “HBlock健身房”究竟是如何发挥 ...

EasyMR6.2 全面解读：四大功能深度优化，解锁全新大数据处理和计算体验

在刚刚过去的2024春季发布会上，袋鼠云带来了数栈产品V6.2版本的全新发布。其中，EasyMR 作为数栈V6.2中的一项关键能力，代表了袋鼠云对大数据生态的深入理解和持续创新。 EasyMR（后文统称EMR）是袋鼠云基于 Hadoop、Hive、Spark、Flink、HBase 等开源组件，构建 ...

WhaleScheduler为银行业全信创环境打造统一调度管理平台解决方案

项目背景数字金融是数字经济的重要支撑和驱动力。近年来，我国针对数字金融的发展政策频频出台，《金融科技发展规划（2022-2025年）》、《“十四五”数字经济发展规划》、《关于银行业保险业数字化转型的指导意见》、《金融标准化“十四五”发展规划》等相继发布，顶层设计逐步完善。 2024年，政府工作 ...

SeaTunnel JDBC DB2 Sink Connector支持的工作原理，快来学习吧！

DB2是IBM的一款关系型数据库管理系统，JDBC DB2 Source Connector是一个用于通过JDBC读取外部数据源数据的连接器。Apache SeaTunnel如何支持JDBC DB2 Sink Connector？请参考本文档。支持引擎 Spark Flink SeaTunnel ...

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看 ...

这篇 DolphinScheduler on k8s 云原生部署实践，值得所有大数据人看！

在当前快速发展的技术格局中，企业寻求创新解决方案来简化运营并提高效率成为一种趋势。 Apache DolphinScheduler作为一个强大的工具，允许跨分布式系统进行复杂的工作流任务调度。本文将深入探讨如何将Apache DolphinScheduler适配并整合进现代IT环境，提升其在云原生部 ...

【安装部署】Apache SeaTunnel 和 Web快速安装详解

版本说明由于作者目前接触当前最新版本为2.3.4 但是官方提供的web版本未1.0.0，不兼容2.3.4，因此这里仍然使用2.3.3版本。可以自定义兼容处理，官方提供了文档：https://mp.weixin.qq.com/s/Al1VmBoOKu2P02sBOTB6DQ 因为大部分用户使用Se ...

天翼云入选“2023年度数据要素价值创新标杆示范案例”！

近日，由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办，中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。大会公布了“2023年度数据要素价值创新标杆示范案例”评选结果，天翼云“海南省数据产品超市公共数据资源开发利用平台”与“福州... ...

裁员了！别错过2024年大数据工程师必备的10项技能

在当今快速发展的世界中，数据被视为新的石油。随着对数据驱动洞察的日益依赖，大数据工程师的角色比以往任何时候都更为关键。这些专业人员在管理和优化组织内的数据操作中扮演着至关重要的角色。在本文中，我们将探索2024年大数据工程师必须具备的十项技能。理解大数据工程师的角色在深入技能之前，了解大数据工 ...

hive on spark内存模型

内容介绍 hive on spark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。 hive on spark的任务，从开始到结束。总共涉及了3个框架。分别是：yarn、hive、spark 其中，hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要 ...

实时数仓构建：Flink+OLAP查询的一些实践与思考

以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓**，其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题。很多人一提起实时数仓，就直接大谈特谈Hudi，Flink的流批一体等，但实际上，**实时数仓包括任何架构体系的构建如... ...

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看 ...

hive窗口分析函数使用详解系列二之分组排序窗口函数

我们讨论面试中各大厂的SQL算法面试题，往往核心考点就在于窗口函数，所以掌握好了窗口函数，面对SQL算法面试往往事半功倍。 ...

Apache SeaTunnel 社区 3 月月报

各位热爱 SeaTunnel 的小伙伴们，SeaTunnel 社区 3 月月报来啦！这里将记录 SeaTunnel 社区每个月的重要更新，并评选出月度之星，欢迎关注。 SeaTunnel 月度 Merge Stars 感谢以下小伙伴 3 月为 Apache SeaTunnel 做的精彩贡献（排名不分 ...