看好中國發展，亞馬遜生成式AI加速行業落地

基礎模型搭建完成後，行業對生成式AI的建設關鍵來到數據層面。

“我們在中國致力于本地數據中心的建造和服務的拓展，並對中國的長期發展抱有充分的信心。”日前，在亞馬遜雲科技數據技術媒體溝通會上，亞馬遜雲科技大中華區産品部總經理陳曉建接受記者采訪時表示，將聯手衆多合作夥伴，共同幫助中國客戶在海外發展和中國本地發展，利用生成式AI 技術助力企業創新成爲重要方向。

在采訪中，陳曉建抛出一個獨特的行業觀點：數據是企業在生成式 AI 時代取得成功的關鍵。“企業需要的是懂業務、懂用戶的生成式AI應用，而打造這樣的應用需要從數據做起。”陳曉建說，每個公司都能訪問相同的基礎模型，但那些能夠利用自己的數據構建具有真正商業價值的生成式AI應用的公司，將會是成功的公司。

“生成式AI基礎模型誕生于大規模、高質量數據集。如果一本書按500KB算，現在的500T參數的模型已經有332億本，相當于現存每個人類擁有4本書。”陳曉建表示，用企業自身的數據去差異化生成式AI應用，通過數據定制基礎模型的方式主要分爲三大類：檢索增強生成（RAG）、微調和持續預訓練，這三種方式適用不同的應用場景。

具體來看，RAG、微調和持續預訓練需要的數據規模、數據來源和技術要求各不相同。其中，RAG的數據來源是企業內部文檔庫、數據庫、數據倉庫、知識圖譜；微調數據來源爲私域知識；持續預訓練數據來源爲公開的數據集或企業各部門的數據。

“用戶期待生成式AI給出高質量答案，但簡單的對話背後蘊藏著複雜的提示工程。”在陳曉建，通過提示工程獲取模型介紹，從企業數據庫獲取用戶背景信息，從RAG獲取上下文，最後才是用戶的問題及問題相關的提示詞。

他舉例稱，以知識圖譜爲例，它被廣泛應用于制造業當中。知識圖譜擅長結構化知識，並能夠確保數據准確，劣勢在于不能理解自然語言，只能做嚴格推理。基礎模型和知識圖譜正好相反，能理解自然語言但缺乏專業知識。兩者結合可以獲得更精確專業的信息以減少幻覺，也可以對不准確的回答進行溯源和糾偏。

“數據，模型，應用程序，是生成式AI的數據飛輪。”陳曉建說，希望企業在生成式AI時代打造堅實的數據基礎，這樣可以高效安全地將海量的多模態數據和各種基礎模型結合在一起，創建出一系列具有獨特價值的生成式AI應用程序並受到終端用戶的歡迎，進而産生更多數據。這些新數據又會繼續提升模型的准確度，創造更好的用戶體驗，從而實現生生不息的正向生成式AI數據飛輪，帶動企業業務走向成功。

文采家

看好中國發展，亞馬遜生成式AI加速行業落地

北京日報客戶端