ETL工程師:
Extraction-Transformation-Loading的縮寫,中文名稱為數據抽取、轉換和加載。
ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
ETL是數據倉庫中的非常重要的一環。它是承前啟后的必要的一步。相對于關系數據庫,數據倉庫技術沒有嚴格的數學理論基礎,它更面向實際工程應用。所以從工程應用的角度來考慮,按著物理數據模型的要求加載數據并對數據進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關系數據倉庫中數據的質量,從而影響到聯機分析處理和數據挖掘的結果的質量。
數據倉庫是一個獨立的數據環境,需要通過抽取過程將數據從聯機事務處理環境、外部數據源和脫機的數據存儲介質導入到數據倉庫中;在技術上,ETL主要涉及到關聯、轉換、增量、調度和監控等幾個方面;數據倉庫系統中數據不要求與聯機事務處理系統中數據實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對數據倉庫中信息的有效性至關重要。
數據挖掘工程師:
數據挖掘(Data Mining),又稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。
并非所有的信息發現任務都被視為數據挖掘。例如,使用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特征來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
-
工程師
+關注
關注
59文章
1566瀏覽量
68445
發布評論請先 登錄
相關推薦
評論