Search This Blog

Friday, December 28, 2018

Machine Learning 筆記之1

呢其興玩 Machine Learning, 其中一範,就係 NLP (Natural Language Processing, 唔係催眠嗰啲). 當中有一個 Word2Vec 嘅玩法,就係將字/詞變成一個所謂嘅 embedding, 基本上係一組數字,而每粒數都係字/詞嘅特性強度,基本上有 100 粒數 (即係 100 個 features) 大慨就夠用。一組數字嚟講,數學上叫做 vector, 亦因為係一個 vector, 就可以利用加減去計算相關嘅字/詞出嚟。例如以三國演義為例: 孔明 - 蜀 + 吳 = 周瑜,又或者 曹操 - 魏 + 蜀 = 劉備

而 vector 之間嘅距離越近,相應字/詞嘅意思亦越近。例如以 LIHKG 嘅廣東話內容去分析,「啲」係同 「D」、「少少」相近。


如果將 vector 嘅數值變成 0 至 255, 就可以變成一個灰階嘅圖,但灰階圖太難睇,加入顏色後,就可以見到特別少少嘅效果。


變咗做圖像之後,就可以玩好多嘢,例如將幅圖縮短,基本上係一篇文章嘅摘要。亦都可以用一啲 image processing 嘅方法去做分析。

Google 嘅 Tensorflow project 外帶一個 embedding projector, 將 100 個 features (dimensions) 計返 3 個 dimensions 出嚟,有興趣可以玩吓: https://x.co/embeddings

No comments:

Popular Posts