現代數據集成解決方案與數據虛擬化技術

現代企業管理的各種數據在數量、種類及速度上呈現空前爆炸式增長，雲和大數據系統等新興技術帶來大量迥然不同的數據，更讓這一問題雪上加霜。非但如此，不同數據源還分別存儲在功能各異的孤島中，與其他數據源分割而治。如今，即便是數據湖也會包含衆多數據孤島。

現代數據集成解決方案與數據虛擬化技術

業務利益相關者需要即時獲取最新信息以做出實時決策，但當所需信息分散在多個來源中時，這項任務便頗具挑戰。同樣地，只有將關鍵來源的數據彙總到統一來源，雲優先、應用現代化、大數據分析等多項舉措才能繼續開展。遺憾的是，事實證明傳統數據集成技術資源密集、十分耗時且成本高昂。

傳統數據集成技術

大多的數據集成方法都涉及提取、轉換、加載 (ETL) 流程或是密切相關的過程。ETL 流程最早啓用要追溯到 20 世紀 70 年代，曆經數年發展逐漸趨于成熟和多樣化，但顧名思義，仍然不外乎三個基本步驟:

首先，從來源中提取數據。

其次，將提取的數據轉換爲最終目標所需的格式和結構。

最後，將轉換完畢的數據加載至最終目標內，無論是操作型數據存儲、數據集市還是數據倉庫。

ETL 流程並非一體適用的解決方案。針對每項流程都要仔細編寫腳本並進行測試，以適應每個單獨來源和最終目標系統的獨特要求。

部分流程會在最後一步執行轉換，相應得變爲“ELT 流程”，但基本概念並無二致: 完成腳本編寫並對流程進行測試後，這些流程會從一個或多個來源複制大量數據，並通過排定的批處理過程在單一整合式系統中複制這些數據，期間會應用所有必要的轉換。

ETL 流程擁有衆多明顯優勢，因此至今仍在廣泛運用:

這些流程在批量轉移數據時效率出衆、效果出色。

該技術已獲得既有供應商的充分了解和廣泛支持。

ETL 工具具備可完全支持大批量或成批次數據移動的多項功能。

大多數組織均有能力在內部實施 ETL 流程。

然而近年來，由于數據環境日益複雜，加之從整合式數據中獲取可操作智能的需求愈加迫切，各組織逐漸認識到 ETL 流程也存在一定程度的劣勢:

轉移數據並非總是最優解，因爲這樣一來需要維護新的存儲庫，既耗費資源又成本高昂。

大型組織每晚可能要運行數千項 ETL 流程，而用來確保同步的腳本很難根據需要進行修改。

由于 ETL 流程按照計劃批次交付數據，最終用戶在數據交付期間需要等待。分批交付速度因配置和計劃而異，但再快也不可能按需即刻交付。因此，不少 ETL 流程都設定爲次日交付。

ETL 流程無法處理當今的數據量和複雜的數據類型，例如每分鍾事務數據或來自機器傳感器的波動性讀數。

數據虛擬化技術

數據虛擬化作爲一種數據集成策略，所用方法全然不同: 數據虛擬化並非物理上將數據移至新的整合位置，而是提供整合式數據的實時視圖，源數據則保留在原處。

先進的數據虛擬化解決方案還會更進一步: 建立企業數據訪問層，提供對組織所有關鍵數據源的通用訪問。在需要訪問數據時，業務用戶可以查詢數據虛擬化層，該層繼而從相應數據源獲取數據。數據訪問組件歸數據虛擬化層負責，因此這些用戶不必受困于訪問的複雜性，例如數據存儲位置或數據格式。根據數據虛擬化層的實施方式，業務用戶只需提出問題並獲取答案，將底層複雜性交給數據虛擬化層處理即可。

大多數情況下，這些無縫的“自助式”場景不會涉及業務用戶直接查詢數據虛擬化層的情況；相反，其最可能與應用程序、Web 門戶或以用戶爲中心的其他界面交互，繼而從數據虛擬化層獲取所需數據。基本架構爲數據虛擬化層位于中間，所有數據源和所有數據使用者 (無論個人還是應用程序) 分居兩端。

由于數據虛擬化不複制任何數據，故而數據虛擬化層本身不包含任何數據，相反地，僅會包含訪問各種來源所需的元數據。數據虛擬化層“輕量化”且易于實施，除此之外還擁有諸多優勢。比如，該架構意味著

企業範圍的訪問控制可輕松應用于數據虛擬化層，而非逐一應用至每個源系統。它還提供讓開發人員用來連接 API 的中心位置，兼顧結構化程度各異的數據源。

因此，數據虛擬化是一種現代數據集成策略。它在轉換和質量控制功能方面與傳統數據集成解決方案大同小異，但能以更低的成本提供實時數據集成，並且速度更快，敏捷性也更高。它可以取代傳統數據集成流程及其關聯的數據集市和數據倉庫，也可簡單地對其進行強化以擴展功能。

作爲抽象層和數據服務層，數據虛擬化可以輕松駕馭原始和派生數據源、ETL 流程、企業服務總線 (ESB) 及其他中間件、應用程序和設備 (無論本地部署還是基于雲端), 進而在業務技術和信息層之間提供靈活性。

顯而易見，與基于複制的傳統數據集成方法相比，數據虛擬化擁有明顯優勢:

能夠無縫聯合兩個或更多個不同數據源 (使其外觀獨立而功能統一),

包括結構化和非結構化數據源的組合。

可以支持智能實時查詢優化、緩存、內存處理等增值功能，以及基于來源限制因素、應用程序需求或網絡感知的自定義優化策略。

通過 API, 任何主要、派生、集成或虛擬數據源的訪問皆可在幾分鍾內以受控方式完成，使用的格式或協議有別于原始形式。

所有數據均可通過單一虛擬層訪問，能夠快速公開冗余、一致性和數據質量問題，並支持應用通用的端到端治理和安全性控制機制。

數據虛擬化亦有一項劣勢: 不同于 ETL 流程，它無法支持一些應用場景可能需要的大批量或成批次數據移動。不過，如上所述，數據虛擬化完全可與 ETL 流程並駕齊驅。

數據虛擬化産品從“功能”到“企業平台”的五層結構

隨著數據虛擬化解決方案逐漸普及，其部分功能已納入其他産品當中，有時也用作附加模塊或功能。因此，有必要將附加組件或內置數據虛擬化産品與能夠建立上文所述企業數據訪問層的成熟企業數據虛擬化平台區分開來。

數據混合功能:

數據混合功能。通常包含在商業智能 (BI) 工具中。數據混合可以結合多個來源共同向 BI 工具提供數據，不過輸出內容的使用權限僅限于該工具，任何其他外部應用程序均無法訪問。

數據服務模塊:

數據服務模塊。通常由數據集成套件或數據倉庫供應商提供，需要額外付費。這些模塊提供強大的數據建模和轉換功能，但其查詢優化、緩存、虛擬安全層、對非結構化來源的支持以及整體性

能往往較弱。原因是這些模塊通常設計爲原型 ETL 流程或主數據管理 (MDM) 工具。

“SQL 化”産品:

化”産品。這一新興類別在大數據和 Hadoop 供應商中尤爲多見。這些産品可對底層大數據技術進行虛擬化，使其能與關系數據源和平面文件相結合，以便使用標准 SQL 進行查詢。這可在大數據堆棧方面發揮效用，但也只能止步于此。

雲數據服務:

雲數據服務。通常部署在雲端，並具有與 SaaS 和雲應用程序、雲數據庫及 Microsoft Excel 等少數桌面和本地部署工具的預封裝集成。不過，與真正的數據虛擬化産品不同，這些産品具有分層視圖並可委托執行查詢，可以跨雲來源公開標准化 API, 以便在中等規模項目中輕松進行數據交換。涉及大數據分析、大型企業系統、大型機、大型數據庫、平面文件和非結構化數據的項目不在此類服務範圍以內。

數據虛擬化平台

: 數據虛擬化平台。這類平台從頭開始構建，旨在通過統一的虛擬數據層以多對多方式爲企業提供數據虛擬化功能。數據虛擬化平台專爲跨各種應用場景 (與來源和使用者無關) 的敏捷性和速度而設計，優于其他中間件解決方案並能與之協作。

數據虛擬化技術及産品的業務價值

1) 維護成本低于傳統集成工具。維護成本低于傳統集成工具。

多次物理複制、移動和存儲數據所需費用高昂，數據虛擬化可創建虛擬數據層，省去複制或存儲成本。

2) 以更快的方式管理數據。以更快的方式管理數據。

不必等待數小時甚至數天，數據虛擬化能夠實時提供結果。

3) 與傳統數據倉庫相輔相成。

數據虛擬化可與現有數據倉庫解決方案並行部署。

4) 最大限度提升性能。最大限度提升性能。

數據傳輸開始之前的延遲往往會拖慢性能。數據虛擬化可直連來源實時提供可操作洞察。

5) 實現自助式商業智能。實現自助式商業智能。

多次物理複制、移動和存儲數據所需費用高昂，數據虛擬化可創建虛擬數據層，省去複制或存儲成本。

6) 可實現安全的數據治理。可實現安全的數據治理。

數據虛擬化能針對企業中的各類信息和元數據建立集中訪問點，從而實現安全管理、數據治理和性能監控。

7) 遠超數據聯合範疇。遠超數據聯合範疇。

數據虛擬化集數據聯合技術十年發展之大成，與數據聯合可謂“和而不同”，數據虛擬化涵蓋性能優化以及自助式搜索和發現的高級功能。

8) 比傳統方法更敏捷。比傳統方法更敏捷。

借助數據虛擬化可實現無縫原型設計，並能夠在執行戰略測試之後在企業層面推廣實施。

文采家

現代數據集成解決方案與數據虛擬化技術

科技墨鏡挨著戴