-
關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關(guān)關(guān)系。
關(guān)聯(lián)規(guī)則是形如X→Y的蘊涵式,其中, X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
-
回歸分析
回歸分析是一種數(shù)學模型。當因變量和自變量為線性關(guān)系時,它是一種特殊的線性模型。
最簡單的情形是一元線性回歸,由大體上有線性關(guān)系的一個自變量和一個因變量組成;模型是Y=a+bX+ε(X是自變量,Y是因變量,ε是隨機誤差)。
通常假定隨機誤差的均值為0,方差為σ2(σ2﹥0,σ^2與X的值無關(guān))。若進一步假定隨機誤差遵從正態(tài)分布,就叫做正態(tài)線性模型。一般的,若有k個自變量和1個因變量,則因變量的值分為兩部分:一部分由自變量影響,即表示為它的函數(shù),函數(shù)形式已知且含有未知參數(shù);另一部分由其他的未考慮因素和隨機性影響,即隨機誤差。
當函數(shù)為參數(shù)未知的線性函數(shù)時,稱為線性回歸分析模型;當函數(shù)為參數(shù)未知的非線性函數(shù)時,稱為非線性回歸分析模型。當自變量個數(shù)大于1時稱為多元回歸,當因變量個數(shù)大于1時稱為多重回歸。
- 分類分析
分類的主要用途和場景是“預(yù)測”,基于已有的樣本預(yù)測新樣本的所屬類別。例如信用評級、風險等級、欺詐預(yù)測等;同時,它也是模式識別的重要組成部分,廣泛應(yīng)用到機器翻譯,人臉識別、醫(yī)學診斷、手寫字符識別、指紋識別的圖像識別、語音識別、視頻識別的領(lǐng)域;另外,分類算法也可以用于知識抽取,通過模型找到潛在的規(guī)律,幫助業(yè)務(wù)得到可執(zhí)行的規(guī)則。
常見應(yīng)用場景:
對沉默會員做會員重新激活,應(yīng)該挑選具有何種特征會員
商品選取何種促銷活動清倉
那些廣告更適合VIP商家的投放需求
提煉特征規(guī)則利用的是在構(gòu)建分類算法時產(chǎn)生的分類規(guī)則。
- 聚類分析
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學,但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報法等。
- 集成學習
集成學習(ensemble learning)通過構(gòu)建并結(jié)合多個學習器來完成學習任務(wù),有時也被稱為多分類器系統(tǒng)(multi-classifier system)、基于委員會的學習(committee-based learning)。
集成學習通過將多個學習器進行結(jié)合,常可獲得比單一學習器更加顯著的泛化性能。這對“弱學習器”尤為明顯。因此集成學習的理論研究都是針對弱學習器進行的,而基學習器有時也被直接稱為弱學習器。但需注意的是,雖然從理論上說使用弱學習器集成足以獲得很好的性能,但在實踐中出于種種考慮,例如希望使用較少的個體學習器,或是重用一些常見學習器的一些經(jīng)驗等,人們往往會使用比較強的學習器。
在一般經(jīng)驗中,如果把好壞不等的東西摻到一起,那么通常結(jié)果會是比最壞的要好些,比最好的要壞一些。集成學習把多個學習器結(jié)合起來,如何能得到比最好的單一學習器更好的性能呢?
- 自然語言處理
自然語言處理( Natural Language Processing, NLP)是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分
自然語言處理主要應(yīng)用于機器翻譯、輿情監(jiān)測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面 。
- 圖像處理
圖像處理(image processing),用計算機對圖像進行分析,以達到所需結(jié)果的技術(shù),又稱影像處理,圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用工業(yè)相機、攝像機、掃描儀等設(shè)備經(jīng)過拍攝得到的一個大的二維數(shù)組,該數(shù)組的元素稱為像素,其值稱為灰度值。圖像處理技術(shù)一般包括圖像壓縮,增強和復(fù)原,匹配、描述和識別3個部分。
深度學習(DL, Deep Learning)是機器學習(ML, Machine Learning)領(lǐng)域中一個新的研究方向,它被引入機器學習使其更接近于最初的目標——人工智能(AI, Artificial Intelligence)。
深度學習是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。 深度學習是一個復(fù)雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關(guān)技術(shù)。
深度學習在搜索技術(shù),數(shù)據(jù)挖掘,機器學習,機器翻譯,自然語言處理,多媒體學習,語音,推薦和個性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動,解決了很多復(fù)雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進步。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6899瀏覽量
88845 -
關(guān)聯(lián)規(guī)則
+關(guān)注
關(guān)注
0文章
29瀏覽量
7996 -
回歸分析
+關(guān)注
關(guān)注
0文章
7瀏覽量
5898
發(fā)布評論請先 登錄
相關(guān)推薦
評論