資料ETL是指什麼,什麼是資料ETL

2022-03-10 04:06:40 字數 5912 閱讀 9326

1樓:匿名使用者

etl是英文extract-transform-load的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

etl所描述的過程,一般常見的作法包含etl或是elt(extract-load-transform),並且混合使用。通常愈大量的資料、複雜的轉換邏輯、目的端為較強運算能力的資料庫,愈偏向使用elt,以便運用目的端資料庫的平行處理能力。

擴充套件資料

etl有幾個特點:

一是資料同步,它不是一次性倒完資料就拉到,它是經常性的活動,按照固定週期執行的,甚至現在還有人提出了實時etl的概念。

二是資料量,一般都是巨大的,值得你將資料流動的過程拆分成e、t和l。

2樓:派可資料

對於做過 bi 開發的朋友,etl 並不陌生,只要涉及到資料來源的資料抽取、資料的計算和處理過程的開發,都是 etl,etl 就這三個階段,extraction 抽取,transformation 轉換,loading 載入。

從不同資料來源抽取資料 extraction ,按照一定的資料處理規則對資料進行加工和格式轉換 trasformation,最後處理完成的輸出到目標資料表中也有可能是檔案等等,這個就是 loading。

再通俗一點講,etl 的過程就跟大家日常做菜一樣,需要到菜市場的各個攤位買好菜,把菜買回來要摘一下,洗一洗,切一切最後下鍋把菜炒好端到飯桌上。菜市場的各個攤位就是資料來源,做好的菜就是最終的輸出結果,中間的所有過程像摘菜、洗菜、切菜、做菜就是轉換。

在開發的時候,大部分時候會通過 etl 工具去實現,比如常用的像 kettle、pentaho、ibm datastage、infornaica、微軟 sql server 裡面的 ssis 等等,在結合基本的 sql 來實現整個 etl 過程。

也有的是自己通過程式開發,然後控制一些資料處理指令碼跑批,基本上就是程式加 sql 實現。

哪種方式更好,也是需要看使用場景和開發人員對那種方式使用的更加得心應手。我看大部分軟體程式開發人員出身的,碰到資料類專案會比較喜歡用程式控制跑批,這是程式思維的自然延續。純 bi 開發人員大部分自然就選擇成熟的 etl 工具來開發,當然也有一上來就寫程式指令碼的,這類 bi 開發人員的師傅基本上是程式人員轉過來的。

用程式的好處就是適配性強,可擴充套件性強,可以整合或拆解到到任何的程式處理過程中,有的時候使用程式開發效率更高。難就難在對維護人員有一定的技術要求,經驗轉移和可複製性不夠。

用 etl 工具的好處,第一是整個 etl 的開發過程視覺化了,特別是在資料處理流程的分層設計中可以很清晰的管理。第二是連結到不同資料來源的時候,各種資料來源、資料庫的連結協議已經內建了,直接配置就可以,不需要再去寫程式去實現。第三是各種轉換控制元件基本上拖拉拽就可以使用,起到簡化的代替一部分 sql 的開發,不需要寫**去實現。

第四是可以非常靈活的設計各種 etl 排程規則,高度配置化,這個也不需要寫**實現。

所以在大多數通用的專案中,在專案上使用 etl 標準元件開發會比較多一些。

etl 從邏輯上一般可以分為兩層,控制流和資料流,這也是很多 etl 工具設計的理念,不同的 etl 工具可能叫法不同。

控制流就是控制每一個資料流與資料流處理的先後流程,一個控制流可以包含多個資料流。比如在資料倉儲開發過程中,第一層的處理是ods層或者staging 層的開發,第二層是 dimension維度層的開發,後面幾層就是dw 事實層、dm資料集市層的開發。通過etl的排程管理就可以讓這幾層串聯起來形成一個完整的資料處理流程。

資料流就是具體的從源資料到目標資料表的資料轉換過程,所以也有 etl 工具把資料流叫做轉換。在資料流的開發設計過程中主要就是三個環節,目標資料表的連結,這兩個直接通過 etl 控制元件配置就可以了。中間轉換的環節,這個時候就可能有很多的選擇了,調 sql 語句、儲存過程,或者還是使用 etl 控制元件來實現。

有的專案上習慣使用 etl 控制元件來實現資料流中的轉換,也有的專案要求不使用標準的轉換元件使用儲存過程來呼叫。也有的是因為資料倉儲本身這個資料庫不支援儲存過程就只能通過標準的sql來實現。

我們通常講的bi資料架構師其實指的就是etl的架構設計,這是整個bi專案中非常核心的一層技術實現,資料處理、資料清洗和建模都是在etl中去實現。一個好的etl架構設計可以同時支撐上百個包就是控制流,每一個控制流下可能又有上百個資料流的處理過程。之前寫過一篇技術文章,大家可以搜尋下關鍵字 biwork etl 應該在網上還能找到到這篇文章。

這種框架設計不僅僅是etl框架架構上的設計,還有很深的etl專案管理和規範性控制器思想,包括後期的運維,基於bi的bi分析,etl的效能調優都會在這些框架中得到體現。因為大的bi專案可能同時需要幾十人來開發etl,框架的頂層設計就很重要。

3樓:匿名使用者

etl是資料抽取(extract)、清洗(cleaning)、轉換(transform)、裝載(load)的過程。是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

4樓:匿名使用者

etl面臨的最大挑戰是當接收資料時其各源資料的異構性和低質量。以電信為例,a系統按照統計**管理資料,b系統按照賬目數字管理,c系統按照語音id管理。當etl需要對這三個系統進行整合以獲得對客戶的全面視角時,這一過程需要複雜的匹配規則、名稱/地址正常化與標準化。

而etl在處理過程中會定義一個關鍵資料標準,並在此基礎上,制定相應的資料介面標準。etl工具的話建議看看finebi!

什麼是資料etl

5樓:釗鉼

etl,是英文extract-transform-load的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

資料倉儲是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

etl是將業務系統的資料經過抽取、清洗轉換之後載入到資料倉儲的過程,目的是將企業中的分散、零亂、標準不統一的資料整合到一起,為企業的決策提供分析依據, etl是bi(商業智慧)專案重要的一個環節。

6樓:猶昊磊

etl過程包括資料抽取、轉換、清洗、裝載等環節,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中區。

7樓:匿名使用者

etl是資料抽取(extract)、清洗(cleaning)、轉換(transform)、裝載(load)的過程。是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

8樓:安徽新華電腦專修學院

etl,extraction-transformation-loading的縮寫,中文名稱為資料提取、轉換和載入。

9樓:_梅川酷梓

etl負責將分散的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。

etl一詞較常出現在資料倉儲,但其物件並不侷限於資料倉儲。

etl是資料倉儲中的非常重要的一環。它是承前啟後的必要的一步。相對於關聯式資料庫,資料倉儲技術沒有嚴格的數學理論基礎,它更面向實際工程應用。

所以從工程應用的角度來考慮,按著物理資料模型的要求載入資料並對資料進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關係資料倉儲中資料的質量,從而影響到聯機分析處理和資料探勘的結果的質量。

資料倉儲是一個獨立的資料環境,需要通過抽取過程將資料從聯機事務處理環境、外部資料來源和離線的資料儲存介質匯入到資料倉儲中;在技術上,etl主要涉及到關聯、轉換、增量、排程和監控等幾個方面;資料倉儲系統中資料不要求與聯機事務處理系統中資料實時同步,所以etl可以定時進行。但多個etl的操作時間、順序和成敗對資料倉儲中資訊的有效性至關重要。

etl是什麼意思

10樓:大野瘦子

etl是指獲取原始大資料流,然後對其進行解析,併產生可用輸出資料集的過程。

從資料來源中提取(e)資料,然後經過各種聚合、函式、組合等轉換(t),使其變為可用資料。最終,資料會被載入(l)到對它進行具體分析的環境中,這就是etl流程。

全寫是 extract-transform-load。

1、e:extract資料抽取

2、t:transform轉換

3、l:load裝載

11樓:派可資料

etl,是英文extract-transform-load的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

資料倉儲是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

etl是將業務系統的資料經過抽取、清洗轉換之後載入到資料倉儲的過程,目的是將企業中的分散、零亂、標準不統一的資料整合到一起,為企業的決策提供分析依據, etl是bi(商業智慧)專案重要的一個環節。

12樓:馨馨金融科技

一、 引言

資訊是現代企業的寶貴資源,是企業運用科學管理、決策分析的基礎。目前,大多數企業花費大量的資金和時間來構建聯機事務處理(oltp)的業務系統和辦公自動化系統,從而記錄事務處理的業務資料。遺憾的是,業務系統產生的資料增長很快,一般情況下,兩到三年的時間,資料量就會成倍增長,這些豐富的、蘊含巨大商業價值的資料,所關注的通常只佔在總資料量的2%到4%。

從而企業將會失去有價值的客戶、失去提高客服質量的指引、無法制定出最佳的營銷手段和策略、等等。無論何種性質的企業,沒有最大化的利用已存在的資料資源,都將浪費更多的時間和資金,也失去制定關鍵商業決策的最佳契機。

商業智慧(bi,business intelligence) 就是為企業把資料轉換為資訊、知識,相應蘊育而出的it技術。企業級bi的基礎就是一個完整的、準確的、統一視角的資料平臺,即dw(data warehousing),而本文則要詳細論述構建dw關鍵過程etl的簡介及必要性。

二、 術語描述

etl:extract-transform-load的縮寫,資料抽取(extract)、轉換(transform)、裝載(load)的過程。

dw:data warehousing,根據bill.inmon的定義,「資料倉儲是面向主題的、整合的、穩定的、隨時間變化的,主要用於決策支援的資料庫系統」。

metadata:後設資料。描述資料的資料,指在資料倉儲建設過程中所產生的有關資料來源定義,目標定義,轉換規則等相關的關鍵資料。

三、 etl是資料倉儲建立的核心過程

資料倉儲系統先天不足,是在業務系統的基礎上發展而來的,其內部儲存的資料來自於事務處理的業務系統和外部資料來源。而企業內各源資料缺少統一的標準,因企業的業務系統是在不同時期、不同背景、面對不同應用、不同開發商等各種客觀前提下建立的,其資料結構、儲存平臺、系統平臺均存在很大的異構性。因而其資料難以轉化為有用的資訊,原始資料的不一致性導致決策時其可信度的降低。

etl是bi/dw的核心和靈魂,按照統一的規則整合並提高資料的價值,是負責完成資料從資料來源向目標資料倉儲轉化的過程,是實施資料倉儲的重要步驟。如果說資料倉儲的模型設計是一座大廈的設計藍圖,資料是磚瓦的話,那麼etl就是建設大廈的過程。在整個專案中最難部分是使用者需求分析和模型設計,而etl規則設計和實施則是工作量最大的,其工作量要佔整個專案的60%-80%,這是國內外從眾多實踐中得到的普遍共識。

四、 etl過程的主要目的

就是以最小代價(包括對日常操作的影響和對技能的要求) 將針對日常業務操作的資料轉化為針對資料倉儲而儲存的決策支援型資料

4D資料是指什麼

4d指的是dem dom dlg drg。意義如下 數字高程模型 digital elevation model 簡稱dem 是在高斯投影平面上規則格網點平面座標 x,y 及其高程 z 的資料集。dem的水平間隔可隨地貌型別不同而改變。根據不同的高程精度,可分為不同等級產品。數字正射影像圖 digi...

什麼是資料新聞什麼是資料新聞

近百年來,關於 什麼是新聞 的問題眾說紛紜,爭論不休。目前國內外關於新聞的定義據說已有上百種之多,常見的有 事實說 報道說 傳播說 資訊說 目的說 等各類定義。例如 新聞者,乃多數閱者所注意之最近事實也。徐玉璜 新聞是新近發生的事實的報道。新聞是對那些使相當多的人感興趣的事件 事實和觀點的報道。弗里...

什麼是結構化資料和非結構化資料?什麼是資料清洗

i don t know.結構化資料和非結構化資料分別是什麼?資料清洗是什麼?未名企鵝資料清洗是任何資料分析的基礎工作,要想做好資料分析 大資料相關工作 資料探勘 智慧分析等等相關,資料清洗都是前提環節。在醫藥行業,資料清洗主要包括這幾個維度 流向上游 流向下游 任務目標等跟標準終端名稱的資訊對齊 ...