呢其興玩 Machine Learning, 其中一範,就係 NLP (Natural Language Processing, 唔係催眠嗰啲). 當中有一個 Word2Vec 嘅玩法,就係將字/詞變成一個所謂嘅 embedding, 基本上係一組數字,而每粒數都係字/詞嘅特性強度,基本上有 100 粒數 (即係 100 個 features) 大慨就夠用。一組數字嚟講,數學上叫做 vector, 亦因為係一個 vector, 就可以利用加減去計算相關嘅字/詞出嚟。例如以三國演義為例: 孔明 - 蜀 + 吳 = 周瑜,又或者 曹操 - 魏 + 蜀 = 劉備
而 vector 之間嘅距離越近,相應字/詞嘅意思亦越近。例如以 LIHKG 嘅廣東話內容去分析,「啲」係同 「D」、「少少」相近。
如果將 vector 嘅數值變成 0 至 255, 就可以變成一個灰階嘅圖,但灰階圖太難睇,加入顏色後,就可以見到特別少少嘅效果。
變咗做圖像之後,就可以玩好多嘢,例如將幅圖縮短,基本上係一篇文章嘅摘要。亦都可以用一啲 image processing 嘅方法去做分析。
Google 嘅 Tensorflow project 外帶一個 embedding projector, 將 100 個 features (dimensions) 計返 3 個 dimensions 出嚟,有興趣可以玩吓: https://x.co/embeddings
Search This Blog
Friday, December 28, 2018
Subscribe to:
Posts (Atom)
Popular Posts
-
通常一個人做唔同事有唔同嘅態度,不過,呢種行為就完全應驗咗响 decision making 呢科心理學,教授响第一堂入面所講 "human is retarded" 呢句。呢句係指人因為行為唔夠 consistent, 所以經常做出愚蠢嘅決定。 自呢堂起,唔...
-
記憶太少,就大概係幼稚園定小學嗰陣上過廣州探過佢。嗰陣時嫲嫲有一間士多仔,有汽水可以飲。前店後居,屋企有一隻貓仔,但啊媽唔俾掂,話污糟喎。 到咗中學,嫲嫲落咗嚟香港一個禮拜,但都無同佢出過一次街,好似無傾幾句計添。 讀完書返咗嚟香港之後,前幾年一直都想再去廣州探佢,但因為...
-
一個要好嘅朋友睇到我之前篇 資產與負債 後寫咗 篇文 為 in-house programmer 申寃,雖然我之前篇文重點唔係要講 in-house vs. software house. 但既然有反應,我又當然回應吓,本來想寫個 comment, 但越寫越長,不如就嚟一個交換日...
-
Butterfly Effect 總恬嚟講就係因為一個輕微嘅變化,而引致一個重大嘅改變。今次個重點,唔係個效應本身,而係想講一講超時工作 (即係 OT) 點樣改變香港人生活模式。 物價篇: 有說,超級市場賣貴貨,甚麼平通街、保證至抵,都係扼人嘅。但係,工時長咗,放工時間夜咗...
-
我剩係相信數字,經過一個 project, 發現到 software outsource 都好大機會慳到錢。 呢個 project 見到嘅,係用 111 個香港 man-hours, 就有 2035 個大陸 man-hours 嘅回報。如果當大陸嘅 productivity 大...
-
電動車環保,但點解普及唔到? 車價係主因,續航能力亦係一個疑問。咁貴買部行無耐就要叉幾個鐘嘅車,略嫌欠經濟效益。 乜原來到咗2013年,叉電仲係問題? 我哋手中嘅電話、平板、相機等等,通通都要叉電。買呢啲 Gadget, 通常會買/送乜嘢附件? Screen Protecto...
-
友人問: 真心問一句, 特首可否有富商朋友? 是否不可以有朋友款待, 又該怎樣申報? 富商朋友可以有,但款待就咪啦! 咁咪申報都慳返囉! 搭遊艇兩個人先俾嗰五舊水,TurboJet 貴賓廂一位都差唔多二千蚊啦! 係,你係做左四十幾年事,係識得好多朋友,但好多賭客都係做咗幾十年...
-
响陳水扁做台灣領導人嘅年代,呂秀蓮因為成日講錯嘢,俾人話係 IBM (International Big Mouth) 同 BMW (Big Mouth Woman). 呢兩日,香港都出咗個 BMW, 叫做譚香文。 話說前亞視女主播王麗珠曾經係譚香文嘅議員助理,譚香文選唔到議員,...
-
金鐘、銅鑼灣、旺角响佔領運動其實缺一不可。我唔識乜嘢孫子兵法,但係以現有嘅資訊,加少少邏輯,可以推斷到每區所扮顯緊嘅角色。 响網絡世界度,資訊保安公司有時會架設一啲 Honeypot 嘅 Server, 專門俾人 Hack 入去。呢啲 Server, 因為太易 Hack, 往...
-
原來要去澳洲做嘢唔係太難,係時候考慮吓係咪要轉換環境。