新Zero-ETL更絲滑的數據應用融合之旅,亞馬遜雲科技今日投産

钛媒體APP 2023-12-02 11:47:13

圖片來源:視覺中國

AI還未改變一切,但一切都在爲AI而開始激變。

2023 re:Invent 大會上,亞馬遜雲科技CEO Adam Selipsky長達兩個半小時的演講,圍繞芯片、雲、數據庫、集成服務多個領域不斷強化這一底色。

在數據服務領域,這一現象前所未有地突出。從信息化到數字化,從數字化到智能化,數據要素重要性不斷提升的同時,面向數據的服務也從後端走向前台。

信息時代的門面是大型企業管理系統與機房,數字時代的門面是雲與SaaS,那麽數據與業務的深度錨定,將企業各種各樣的數據應用和業務場景捆綁集成在一起,就是AI時代最新的門面。

然而時代的更替,也給用戶帶來新的挑戰與困難,尤其是數據工程師的痛苦與日俱增。面對企業或個人過往長期積累的數據總和,以及當前日均PB級別的數據增長,在一些BI、AI的項目中,ETL環節就會占用30%的項目時間,而70%的ETL構建和維護工作量也成爲數據工程師的常駐夢魇。

ETL就像一個黑洞,在無休止吞噬項目資源。

天下苦ETL久矣,亞馬遜雲科技Zero-ETL打通雲上雲

這裏有必要解釋一番ETL,即提取、轉換、加載(Extract、Transform、Load),將業務系統的數據經過抽取、清洗轉換之後加載到數據倉庫的過程,目的是將企業中的分散、零亂、標准不統一的數據整合到一起,爲企業的決策提供分析依據。ETL也是BI項目重要的一個環節,將直接決定BI項目的成敗。

雖然ETL隨著數據技術不斷叠代發展進入成熟階段,但也因爲其積累足夠久遠,造成當前ETL工具種類繁多,如Informatica PowerCenter、Microsoft SQL Server Integration Services(SSIS)、IBM InfoSphere DataStage、Apache NiFi等産品各有不同,第一道選型大門就令許多數據工程師不得不反複切換。

千辛萬苦選型之後,擺在面前的是ETL任務量隨項目複雜度“指數級正相關”。數以千計的ETL任務、調度、排查、維護則成爲通往項目成功路上的各種地雷、荊棘。

組織或個人想要在數據中挖掘價值,獲得數字化轉型的果實,就不得不死磕ETL,正是一種明知山有屎,偏向屎山行的無奈。

如何能夠相對輕松解決ETL問題,不僅是數字化轉型的痛楚,也是攻克更有效使用AI技術的關鍵。在時代的推動、客戶需求的爆發下,亞馬遜雲科技在2022年re:Invent全球大會上發布了Zero-ETL服務,正式開創了“零ETL時代”。

亞馬遜雲科技希望通過Zero-ETL解決方案,把從數據倉庫到數據湖的鴻溝填平,令數據工作者用最低的成本,高效完成不同服務間的數據遷移和轉換工作,幫助企業實現數據“無感知”、“更自由”的流動能力,從而更好地管理和利用數據。

亞馬遜雲科技數據庫、分析和機器學習副總裁Swami Sivasubramanian表示:“借助Zero-ETL,無論企業和數據的規模有多大,複雜度有多高,通過爲客戶消除ETL和其它數據遷移任務,助力客戶專注于分析數據,面向業務獲取新的洞察。”

爲此,亞馬遜雲科技發布兩個主要功能:Amazon Aurora與Amazon Redshift的Zero-ETL集成,以及適用于Apache Spark的Amazon Redshift集成。

用戶可以在將數據寫入Aurora數據庫後的幾秒鍾內對Redshift運行複雜的分析查詢。開發人員跳過將數據導入S3,才能在EMR或SageMaker上使用Spark作業的中間數據階段,就能直連Redshift以創建機器學習應用並處理近乎實時的數據。這極大地減少處理數據並爲表示層做好准備所需的時間。

很顯然,亞馬遜雲科技的願景是希望通過Zero-ETL的方式,把企業或個人從繁雜的基礎數據處理事務中解脫出來,令所有人能夠將更多的時間和精力聚焦于業務和項目本身,強化客戶在業務端的競爭力。

經過一年的錘煉,在2023年亞馬遜雲科技對Zero-ETL進行了進一步深化。

Adam Selipsky表示:“如今新的Zero-ETL集成可以把事務處理、數據分析集成在一起。在亞馬遜雲科技不同的雲服務之中,通過Zero-ETL能夠更好地實現數據在不同服務之間的打通。使工作效率快速而便捷。”

主要表現在5項新的Zero-ETL集成功能,使客戶能夠快速、輕松地連接和分析數據,而無需構建和管理複雜的提取、轉換和加載(ETL)數據管道:Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL與Amazon Redshift數據庫的集成,以及Amazon DynamoDB與Amazon OpenSearch服務的Zero-ETL集成,Amazon S3與Amazon OpenSearch服務的Zero-ETL集成。

具體表現爲:

Amazon Aurora和Amazon Redshift的Zero-ETL集成,用于實時分析。並且亞馬遜雲科技雲上的服務之間建立了集成,使分析和機器學習變得更容易,而個人無需深入研究ETL的複雜性。

Amazon DynamoDB 與Amazon OpenSearch 服務的Zero-ETL集成,不用自定義代碼或者基礎設施,就能自動複制和轉換DynamoDB數據來執行搜索任務;通過與Amazon Athena和Amazon Redshift的聯合查詢,可對存儲在操作數據庫、數據倉庫和數據湖中的數據運行查詢,從而在不移動數據的情況下提供對多個數據源的洞察力。

Amazon S3與Amazon OpenSearch服務的Zero-ETL集成,在Amazon S3和基于S3的數據湖中查詢操作日志的新方法,而無需在服務之間切換。用戶可以分析雲對象存儲中不經常查詢的數據,並同時使用OpenSearch Service的操作分析和可視化功能。

Zero-ETL已經連接100多個數據源,包括SaaS、企業內部和其他雲,可對所有數據采取行動。如使用AppFlow將數據湖和數據倉庫連接到50多個SaaS應用程序;使用Data Wrangler,在Amazon SageMaker上使用來自40多個數據源的數據一鍵建立模型;利用QuickSight,使用30多個數據源構建交互式儀表盤;還可使用亞馬遜雲科技 Data Exchange訪問到來自300多個數據提供商和3500多個數據産品等。

這就意味著,只要在亞馬遜雲科技端服務中,客戶即可通過Zero-ETL集成無縫將不同數據庫、跨多應用的數據用近乎無消耗的方式,應用于如營銷、客服、運營等不同的業務場景之中,不必浪費巨大的精力在傳統ETL任務上,在理論上可以在ETL環節節省接近60%的項目時間資源,加速客戶的數據應用能力成型。

可以預見,Zero-ETL短期將貫通自身各類雲服務的數據轉換桎梏,但亞馬遜雲科技更大的數據棋局也已經在與夥伴的深度合作中展開——通過Zero-ETL,實現客戶多雲數據的應用自如。

從2小時到10秒鍾,使用數據有點“easy money”了吧

在全球範圍內制造業、金融、醫療、科技等多行業的衆多世界500強企業,已經通過Zero-ETL實現了卓越的數字化體驗。

亞馬遜雲科技通過對Zero-ETL預覽版的客戶觀察發現,客戶在使用Zero-ETL之前,它們Amazon Aurora MySQL數據庫每分鍾産生數十萬個事務,將這些數據從ETL管道移動到Amazon Redshift的過程需要超過2個小時的延遲時間。

但是通過Aurora和Redshift之間的Zero-ETL集成之後,同樣的數據僅需要不到10秒的時間就已經出現在Amazon Redshift數據倉庫中,幾乎可以實現無縫的實時分析。

西門子股份公司專注于工業、基礎設施、交通和醫療領域,並與亞馬遜雲科技在多個項目上有著緊密合作。出于企業戰略需要,構建基于生成式AI的會話機器人“小禹”。

小禹回答內容不僅生成速度更快,其對搜索關鍵詞的命中率也更高,整體使用體驗遠超傳統機器人,首周就有超過4000位內部用戶參與使用,超過12000個問題被提出並解答,不但解決各業務部門之間需求相似、重複開發的問題,更以雲上彈性資源和托管的Amazon OpenSearch Service、Amazon SageMaker等服務節約了系統在運維和擴展方面的投入成本。

實現小禹快速高質量的實時應答,以及知識庫運維托管的低成本功臣,就是背後的Zero-ETL。開發人員不需要管理集群或擔心生産規模,可以快速推動部署,並且在多部門、多應用的數據倉庫提出數據快速複制到Redshift中進行分析響應。

Adobe通過Amazon Redshift集成的Amazon Aurora Zero-ETL功能爲不斷擴大的Acrobat Sign客戶群提供新的洞察和更快的分析能力,並隨著他們用量的增加而同步增長,並且還免去了自己團隊的日常維護工作。

Infor作爲商業雲軟件和特定行業ERP解決方案的全球領導者,使用Amazon Redshift集成的Amazon Aurora Zero-ETL功能,它將讓Amazon Aurora中的交易數據近乎實時地提供給Amazon Redshift,在不影響Aurora用作關系型數據庫性能的同時,又減輕整個組織的運營負擔。

高盛集團作爲全球頂尖的金融機構,通過面向Apache Spark的Amazon Redshift集成功能,數據平台團隊以最少的定制化操作就可以訪問Amazon Redshift數據,實現零代碼ETL令工程師收集完整及時的信息時,讓他們更容易專注于完善其工作流。由于用戶現在可以輕松訪問Amazon Redshift中的最新數據,高盛將能實現更高的應用程序性能和更強的安全性。

通過不同客戶對Zero-ETL的實際使用效果來看,新Zero-ETL已經爲客戶帶來兩個突出的價值表現:

Zero-ETL開啓後對Aurora MySQL的性能幾乎無影響。通過sysbench壓測發現,在進行ETL前後,CPU利用率、讀寫IOPS以及網絡流量幾乎沒有發生變化。

Zero-ETL快速進行配置,即可複制除系統表之外所有表的數據,易于使用,沒有繁雜的配置整個數據庫就可以全部同步到數倉。

Adam Selipsky認爲:“數據集成不應該是人工工作的無底洞,你需要一個更好的服務去自動化地、輕松地去連接所有的數據,並且加以使用。”

很顯然Zero-ETL已經在客戶數字化轉型乃至智能化轉型中贏得信賴,並且開始讓客戶感受到ETL這個無底洞將被填平,使用數據前所未有的流暢與簡單。

Zero-ETL下一步

無論是亞馬遜雲科技,還是微軟、IBM等巨頭,都對Zero-ETL寄予厚望。在打造更極致的數據應用體驗同時,以更低成本、更高效方式釋放數據能量。

在産品側,雲原生的技術和分布式計算架構已經成爲共識,以最佳性能提高Zero-ETL的伸縮靈活性,並且基于雲原生特點,Zero-ETL工具會越發注重降低開發門檻和跨平台能力,以應對更多樣化、多數據源、多雲環境下的數據生態系統。

同時Zero-ETL自身會變得更加智能,利用生成式模型等技術自動學習數據關系,從而減少手動配置的需要。並且更加強調實時數據處理能力,支持快速的數據流傳輸和處理,以滿足實時分析的需求。

在市場發展側,隨著客戶行業化、場景化需求的加深,不同行業客戶對面向特定行業或領域的數據集成、處理等訴求不斷湧現。並且隨著數據隱私、數據治理合規的愈發嚴苛,客戶業務場景也對敏感數據的脫敏、加密等環節的優化提出了思考方向。

站在生成式AI立面,Zero-ETL與其結合水到渠成。自動生成的數據和自動化數據處理,進一步提高數據集成和處理效率,從數據處理到數據使用大幅提升用戶對數據應用的極致體驗。

亞馬遜雲科技提供了完全托管的生成式AI服務Amazon Bedrock,它使用單個API提供來自AI21 Labs、Anthropic等公司的多個大語言模型,並且支持任意模型之間的任意數據交互。這意味著,通過使用Amazon Bedrock平台,企業可以更輕松地實現數據集成和處理,同時利用生成式AI技術自動生成所需的數據,從而更好地利用數據。

Zero-ETL是一條載著亞馬遜雲科技與客戶一同邁入生成式AI時代的“方舟”。Zero-ETL深度地整合生成式人工智能技術,以進一步優化數據集成和處理的效率,有助于提高企業對數據的價值提取能力,促使數據驅動決策更加普及。

結語

2023 re:Invent 著實又驚豔了一次。從未有一場盛會既讓開發者們澎湃,又讓業務專家們熱血,不僅是規模的驚豔,也是認知的驚豔——把對數據的認知門檻,又砍掉了一大截。

(本文首發钛媒體APP,編輯 | 楊麗)

0 阅读:2

钛媒體APP

簡介:中國財經科技信息服務提供商。