在一个经济寒冷的时期,一位名叫张盼富的亚马逊云科技解决方案架构师准备在中国峰会上进行一场闪电演讲。他的演讲主题是在3分钟内构建一个流式数据处理管道。张盼富首先询问在座的与会者,有多少人从事过数据分析工作或对数据分析有所了解。看到不少人举手,他感到很高兴。
接下来,张盼富设想了一个场景:假设一位老板参加了亚马逊的中国峰会,回到公司后找到公司的数据分析师小张,抱怨说公司的报表只能查看前一天的数据,反应太慢了。研发人员小王已经把数据导入到Kafka消息队列中,但老板不解为什么报表还需要第二天才能出来。
小张解释说,作为一名数据分析师,他只会写SQL,不会从Kafka读取数据,也不会编写Spark或Flink程序。老板却说,在中国峰会上,亚马逊的老师说只需3分钟就能构建数据管道。小张内心万分吐槽,但鉴于是老板,只好说会去学习一下。

小张之前使用过亚马逊的Redshift分布式数据仓库服务,它对于习惯使用SQL Server或Oracle的数据分析师来说非常友好,能够帮助他们平滑过渡到大数据时代。Redshift有一个外号叫”一级秒开”,意思是对于10亿条数据、多张表的联合查询和聚合,它只需1秒或更短的时间就能返回结果,查询速度达到亚秒级。
小张回忆起,要将Kafka中的数据导入Redshift,一种方式是启动亚马逊的EMR服务,使用Spark或Flink进行数据处理和写入。但他并不熟悉这些技术,告诉老板说需要三五个月的时间才能勉强学会。继续查阅文档,小张发现另一种方式是使用Firehose ETL工具,将Kafka的数据消费到S3,再从S3将数据导入Redshift。但老板要求3分钟就能完成,这种方式似乎也不够快。
终于,小张找到了一个叫做”流式摄入”的功能,它能够直接将Kafka中的数据写入Redshift,中间不需要Spark、Flink等中间件,避免了额外的开销。不过小张还是有些疑虑,这种高大上的功能会不会很复杂?但为了满足老板的要求,他决定试一试。
很快,小张在官网上找到了一些SQL示例。第一条SQL创建了一个Schema,并将其映射到Kafka集群,对应的是一长串红色数字ID。第二条SQL在该Schema下创建了一个名为mytopic的视图,从Kafka的topic中读取数据,kafka_value就是Kafka消息体,通过解析可以获得id和name字段。值得注意的是,这里使用了”物化视图”的概念,不同于普通视图只是SQL定义,物化视图是带有本地缓存的,可以实时读取Kafka数据。
有了物化视图后,我们就可以实时读取Kafka数据了,但通常还需要将数据写入数据表中进行物理存储,以便后续消费和分析。小张发现果然非常简单,只需3条SQL就能搞定。接下来的问题是,如何自动执行这些SQL?没问题,Redshift本身就提供了调度功能。在网页编辑器中编写SQL,点击”Schedule”按钮,就可以配置每分钟运行一次,并指定运行的日期范围。你还可以实时查看调度和执行记录。就这样,小张实现了每分钟消费Kafka数据的数据管道。
小张的思路还在发散,他想到公司还有一些数据存储在MySQL等数据库中,是否也能像Kafka一样直接、实时地导入Redshift?答案是肯定的,不仅Kafka,MySQL、亚马逊云科技自研的数据库、托管数据库,以及Amazon Glue、DynamoDB等,都可以通过零ETL的方式,直接实时导入Redshift,无需中间环节,真正拥抱零ETL。之后就是数据分析师的工作了,在Redshift中对数据进行分析和处理。
总之,通过Redshift的流式摄入功能,我们可以在3分钟内构建一个流式数据处理管道,将Kafka、MySQL等数据源的实时数据直接导入Redshift,实现零ETL,为数据分析工作提供了极大的便利。
在这场精彩的闪电演讲中,张盼富生动地描绘了一个真实的场景,并一步步展示了如何使用Redshift的流式摄入功能快速构建数据管道的过程。他的演讲不仅内容丰富,而且语言幽默风趣,让在座的与会者获益匪浅。通过这个案例,我们可以清晰地看到亚马逊云科技在大数据和数据分析领域的强大实力,以及它为客户提供的优质服务和解决方案。相信在张盼富和其他亚马逊云科技专家的共同努力下,越来越多的企业和组织将能够高效利用数据资源,推动业务发展和创新。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技中国峰会2024的主题演讲者提出了在3分钟内构建一个流式数据的pipeline的挑战。
亚马逊云科技的Redshift分布式数据仓库能够在亚秒级返回10亿条数据的查询结果,为数据分析师提供了高效的大数据处理能力。
在亚马逊云科技中国峰会2024上,演讲者生动形象地解释了如何利用亚马逊云科技服务直接从Kafka将数据写入Redshift,省去了中间环节,实现了高效的数据摄入。
亚马逊云科技中国峰会2024上,演讲者生动解释了如何使用SQL从Kafka主题中读取实时数据流,并创建带缓存的物化视图。
亚马逊云科技中国峰会2024上,演讲者展示了如何使用Amazon Redshift网页编辑器编写SQL,并通过调度功能实现每分钟自动执行,实现了分钟级消费卡夫卡数据的Pipeline。
张先生提出了利用Amazon Web Services Zero ETL技术将MySQL、DynamoDB等数据源直接实时传输到Redshift进行数据分析,消除了传统ETL过程的中间环节。
总结
亚马逊云科技解决方案架构师张盼富在本次演讲中分享了如何在3分钟内构建一个流式数据处理管道。他以一个生动的场景开场,描述了一位数据分析师小张面临的挑战:公司要求实时查看数据报表,但小张只会编写SQL,无法从Kafka消息队列中读取数据。
张盼富首先介绍了亚马逊的分布式数据仓库Redshift,它能够秒级处理大规模数据。接着,他展示了如何通过三条简单的SQL语句,直接从Kafka读取数据流并将其存储到Redshift中,无需编写复杂的Spark或Flink代码。这种”流式摄入”功能大大降低了数据处理的门槛。最后,他强调Redshift不仅支持Kafka,还可以通过零ETL直接从MySQL、Amazon Glue、DynamoDB等多种数据源实时摄入数据,为数据分析师提供了强大的工具。
张盼富的演讲清晰地阐释了亚马逊云科技在流式数据处理领域的创新能力,为客户提供了高效、简单的解决方案,助力企业实现数据驱动的业务决策。他的分享不仅启发了在场听众,更号召开发者和数据从业者拥抱云原生时代,共同推进数字化转型。
2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。