- K-means
- GAN (生成對抗網絡)
- 電腦視覺
- 手寫辨識
- Support Vector Machine
- 屬於非監督學習。
- 適用於無label的資料。
- 逐漸找出資料的中心點,來得知資料的特徵相似度。
- 找到Elbow point可知道該分類的組數(k)以減少迭代次數。(圖源)
- 屬於監督式學習。
- 基於統計模型。
- 目標在找到能畫分資料的hyperplane(超平面,在n維空間找到n-1維平面),且能使Margin最大化。
- 語意相似度:例如King 跟Queen的概念相近。
- 屬型:例如King有個屬性為man。
- 依照統計法:執行較快。
- 依照語言學:效果可能較好。
- Text Distance:語意上的評估。
- 長度距離
- 歐拉距離
- 餘弦距離
- 曼哈頓距離
- 漢明距離
- 分布距離:好處有(1.)適用於對稱問題,例如Sim(A,B) =Sim(B,A) [7];(2)只用距離計算相似度是不夠的[9]。
- JS Divergence:計算兩分布的相似度,常用於比對某主題與現有主題的相似度。
- KL Divergence
- Wasserstein Distance
- 語意距離:若句子無共用單字,導致距離相似度小,可考慮計算語意相似度。
- word mover’s distance:計算A移動(transform)到B的最小距離。
- 長度距離
- Text Representation:有的相似度計算會使用Knowledge based分類法,例如利用Wikipedia,則不用計算相似度距離。
- string based
- character-based
- Corpus based
- ....
LSA (Latent Semantic Analysis)
Corpus based (語料庫)
Glove & Word2Vec是什麼?
- LSA(Latent Semantic Analysis)可以基於co-occurance matrix構建詞向量,實質上是基於全域語料採用SVD進行矩陣分解,然而SVD計算複雜度高
- Glove沒有直接利用共現矩陣,而是通過ratio的特性,將詞向量和ratio聯繫起來,建立損失函數,採用Adagrad對最小平方損失進行優化(可看作是對LSA一種優化的高效矩陣分解演算法)
- LSA:以統計方式求出該句子中的單詞的共現因子。
- TFSF:該論文自創,類似於TF-IDF的概念,差別在於用句子間的詞頻,而非文本間的詞頻。
- n-gram:由於該論文處理的是中文,使用n-gram找出最有可能的斷句。
- Jaccard:求LSA矩陣中各句子間的關聯性。
- 模糊理論:讓句子間能有關係的推導。
