前往
大廳
主題

td matrix 小技巧(Document-term matrix)

山上樵夫 | 2020-12-09 16:26:05 | 巴幣 0 | 人氣 138

當你想用 td matrix 分析文本,但太大

import numpy as np
from scipy.sparse import dok_matrix

matrix = dok_matrix((len(     ducument____list   ), len(   word數量   )), dtype=np.float32)

-----------------------------------------------------------------------------------------------------------------------------------------
如何建構矩陣
https://www.itread01.com/content/1545142449.html

自己改一改

然後svd 分析

import scipy.sparse.linalg
u , s ,vt = scipy.sparse.linalg.svds(matrix,min(matrix.shape[0],matrix.shape[1])-1)


經驗提醒


10877 * 164679
且 len(matrix)=5951827
的svd跑一天又4小時沒跑出來,我沒那麼多時間等啦

len(matrix)=97412
的svd跑1小時39分

len(matrix)=609150
的svd跑25分

len(matrix)=69034
的svd跑4分


痾.....算了


創作回應

更多創作