資料探勘心法篇 (Data Mining)
從一張發票談關聯性分析 (Association Analysis)
電子採購資料談叢聚分析 (Clustering Analysis)
電子投票記錄談分類法則 (Classification Analysis)
DSP智庫驅動
Shiny
, R語言的 Dashboard 製作工具客製化的資料科學產品
歷史資料
,萃取有價值的資訊
,提供決策參考依據。歷史資料
有價值的資訊
有極限
的假設
,沒辦法驗證假設資料分析師
Learning
(IFTTT) 的準則 機率
距離
商品規格
或是訪客瀏覽行為
計算兩台相機的距離
風險
準確
與精密
度資料量
、使用者廣度
、反應時間
。品項集
\(X\), 有多少個比率交易紀錄
包含 \(X\) 稱為 \(Supp(X)\)關聯規則
$X \Rightarrow Y$,\(Conf(X \Rightarrow Y) = \frac{Supp(X \cup Y)}{Supp(X)}\)交易紀錄
發生的狀況下,同時包含X與Y交易紀錄
的條件機率,記為\(P(Y|X)\)支持度
與置信度
衡量支持度
(support) 越高 => 越有影響置信度
(confidence) 越高 => 越準確支持度
和置信度
的不足強關聯規則
,通常支持度
和置信度
值都高。支持度
和置信度
值都高,卻不一定代表這條規則所指的交易紀律
彼此間就一定存在著高相關性
。支持度
和置信度
的不足關聯規則
:置信度
67% 卻低於bread的支持度
75% ,即 $P(\text{bread | milk}) < P(\text{bread})$,也就是說購買 milk 反而會降低購買 bread 的機會。增益值
(Lift)支持度
和置信度
的不足,我們還需要檢查增益值
(Lift),亦即
\[Lift(X \Rightarrow Y) = \frac{Conf(X \Rightarrow Y)}{Support(Y)}\]也就是$(X, Y)$的相關性指標:\(Lift(X \Rightarrow Y) = \frac{ P(X,Y)}{P(X)P(Y)}\)
增益值
>1,表示X與Y呈現正相關,規則才具有實用性。
增益值
=1,表示X與Y呈現不相關,結果與亂數取得方式相似。
增益值
<1,表示X與Y呈現負相關,比亂數取得之結果更差。
高頻項目集合
(large itemsets),且大於所設定之最低支持度
(minimum support)。高頻項目集合
產生關聯法則
,並計算其置信度
,若高於所設定的最低置信度
(minimum confidence),則此規則確定成立。增益值
以檢查規則的相關性。06-RDataMining-01-Association-Rule
「物以類聚」,將比較相似的物件聚集在一起,形成各個集群。
距離
距離
相似度
:越大越像 vs. 相異度
:越小越像相似度
常常介於0與1之間相異度
: 1 - 相似度
相似度
/相異度
可以視為距離指標
的特例
距離
沒有值域的限制 \([0, \infty)\)id | name | parent | birthday | magnate |
---|---|---|---|---|
00000000 | 復華廣告有限公司 | NA | 1976-05-24 | |
00000016 | 富台機械開發建設有限公司 | NA | 1979-04-30 | 王振林 |
00000022 | 泰煜建材股份有限公司 | NA | NA | |
00000037 | 茂盛工程有限公司(同名) | NA | 1978-07-08 | |
00000043 | 啟猛股份有限公司(無統編) | NA | 1984-05-22 | 鄭添發 |
00000058 | 詠詳鐵工廠股份有限公司(無統蝙) | NA | 1984-03-07 | 吳秋進,吳戴麗珍,謝素梅,吳秋龍 |
id | name | parent | birthday | magnate | |
---|---|---|---|---|---|
555426 | 27229231 | 尚達塩業股份有限公司 | NA | 2005-05-30 | 吳秀里,周永紹,周博元,周碩良 |
1067348 | 70794974 | 上達糧業國際股份有限公司 | NA | 2002-01-08 | 吳秀里,周永紹,周博元,周碩良 |
\[ d(i,j) = \frac{1}{M}\sum_{k=1}^M {d_{ijk}} \]
如果第一個變數是數值型: \[ d_{ij1} = \frac{\left|x_{i1} - x_{j1}\right|}{\left|\max{x_1}-\min{x_1}\right|} \]
如果第二個變數是類別型: \[ d_{ij2} = 1-\frac{\left| x_{i2} \cap x_{j2} \right|}{\left| x_{i2} \cup x_{j2} \right|} \]
cluster::daisy(x, metric="gower")
vegan::vegdist(x, method="gower")
stats::hclust
ggdendro
:Create Dendrograms and Tree Diagrams using 'ggplot2'樹狀圖
(dendrogram)UPGMA
演算法給定一個樹狀圖
,如果要找出 k 個 clusters,就使用當全部資料被分成 k 個 clusters 的瞬間當成結果
stats::kmenas
cluster
: "Finding Groups in Data": Cluster Analysis Extended Rousseeuw et al.距離
指標,定義誤差函數
kmeans
演算法withinss
: 各群集內的資料與中心點的距離平方和
DBSCAN
演算法07-RDataMining-02-Clustering
最近鄰居法 (K-NN) / 羅吉斯回歸 (logistic regression) / 支持向量機 (SVM) / 決策樹 (decision tree) / gradient boosted decision tree ...
測試集
(testing data),從訓練集
(training data) 中找出與它最近的鄰居預測集
(testing data) 的類別class
: Functions for Classification測試集
(testing data),從訓練集
(training data) 中找出與它最近的前K個鄰居預測集
(testing data) 的類別相似度
指標距離
/相似度
決定鄰居08-RDataMining-03-Classification
作者frank9712520 (YFChen)看板StupidClown標題[健忘] 手機不見了...(代PO)時間Wed Dec 23 02:29:15 2015
以下是朋友要求代PO的...
剛剛手上拿著手機在回人FB訊息回到一半,突然被我媽叫離開原本的位置,我媽找完我沒
事後就忘記手機放在哪裡了
用我媽的手機打過去,打通了,沒鈴聲,我關了靜音...
還很興奮地跑到電腦前要用Google Device 放鈴聲找,結果他要我輸入密碼
這兩個多月來當兵每次休假就叫我換密碼,在加上與世隔絕了36天,根本不記得密碼了,
按忘記密碼,可是經過一連串驗證他要寄認證信到我的備用信箱(yahoo的) 但是到我發完
文已經過了快一個小時還時沒收到信...
乾........................
距離上次變更密碼...54天前(因為帳號久未活動,所以要求更改密碼)
http://i.imgur.com/2u4GMKb.jpg
啊就是手機不見才要登入啊...結果現在又要傳訊息到手機
剛剛手上拿著手機在回人FB訊息回到一半,突然被我媽叫離開原本的位置,我媽找完我沒事後就忘記手機放在哪裡了
剛剛 手上 拿 著 手機 在 回人 FB 訊息 回到 一半 突然 被 我媽 叫 離開 原本 的 位置 我媽 找 完 我 沒事 後 就 忘記 手機 放在 哪裡 了
剛剛 | 手上 | 拿 | 著 | 手機 | 在 | 回人 | FB |
---|---|---|---|---|---|---|---|
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
剛剛 手上 拿 著 手機 在 回人 FB 訊息 回到 一半 突然 被 我媽 叫 離開 原本 的 位置 我媽 找 完 我 沒事 後 就 忘記 手機 放在 哪裡 了
剛剛+手上 手上+拿 拿+著 著+手機 手機+在 在+回人 回人+FB FB+訊息 訊息+回到 回到+一半 一半+突然 突然+被 被+我媽 我媽+叫 叫+離開 離開+原本 原本+的 的+位置 位置+我媽 我媽+找 找+完 完+我 我+沒事 沒事+後 後+就 就+忘記 忘記+手機 手機+放在 放在+哪裡 哪裡+了
剛剛+手上 | 手上+拿 | 拿+著 | 著+手機 | 手機+在 | 在+回人 | 回人+FB | FB+訊息 |
---|---|---|---|---|---|---|---|
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
X4-RDataMining-04-Text-Mining