vChewing-macOS

Commit Graph

Author	SHA1	Message	Date
ovadmin	d672136843	實作簡單的用戶選字記憶模型這個模型基本上只是根據游標前的兩個 unigram 記憶當前的用戶選字。當有超過一個以上的用戶選字時，則要給每個選字評分。評分標準是選字頻率乘上一個透過半衰期遞減的最近選字經歷時間。如此一來我們在「少用但最近選過」及「常用但最近少選」之間取得一個平衡。半衰期透過經驗法則決定。目前這個簡易模型並不存入磁碟，因此下一次重開機後就會洗掉重來。目前這樣選擇純粹是因為模型有半衰期，因此長時間存放後還是會遺忘。這個模型的好處是對既有詞庫提供詞的影響很小，對於連續單字詞的 override 有還不錯的幫助。如此對於人名、地名、公司名等專有名詞，應該可以減少選字的頻率。這個模型應用起來的缺點是，如果用戶修改的字詞原來是個雙字詞，例如先前的兩個 unigram 分別是 A, BB ，而用戶想改的是 BB 的第二個字，使選完後的三個字分別是 A, B', C，這個 C 往往是記不起來的，但如果一開始用戶逐字選取，亦即在 BB 只出現 B 時就選取 B' 然後再打 C ，則 A, B', C 這個組合往往能被正確記憶。實際發生原因在此不討論，但跟底層所用的組字網架的架構有關。確實要改進的話得要從底層重新架構來下手，但至少目前這個模型給的建議偏保守，不至干擾原有的預設選字。衡諸得失，這個模型提供一些邊際上的改善，應該還是值得採用的。	2022-01-06 18:28:37 -08:00

Author

SHA1

Message

Date

ovadmin

d672136843

實作簡單的用戶選字記憶模型

這個模型基本上只是根據游標前的兩個 unigram 記憶當前的用戶選字。當有超過
一個以上的用戶選字時，則要給每個選字評分。評分標準是選字頻率乘上一個透過
半衰期遞減的最近選字經歷時間。如此一來我們在「少用但最近選過」及「常用但
最近少選」之間取得一個平衡。半衰期透過經驗法則決定。

目前這個簡易模型並不存入磁碟，因此下一次重開機後就會洗掉重來。目前這樣選
擇純粹是因為模型有半衰期，因此長時間存放後還是會遺忘。

這個模型的好處是對既有詞庫提供詞的影響很小，對於連續單字詞的 override 有
還不錯的幫助。如此對於人名、地名、公司名等專有名詞，應該可以減少選字的頻
率。這個模型應用起來的缺點是，如果用戶修改的字詞原來是個雙字詞，例如先前
的兩個 unigram 分別是 A, BB ，而用戶想改的是 BB 的第二個字，使選完後的三
個字分別是 A, B', C，這個 C 往往是記不起來的，但如果一開始用戶逐字選取，
亦即在 BB 只出現 B 時就選取 B' 然後再打 C ，則 A, B', C 這個組合往往能被
正確記憶。實際發生原因在此不討論，但跟底層所用的組字網架的架構有關。確實
要改進的話得要從底層重新架構來下手，但至少目前這個模型給的建議偏保守，不
至干擾原有的預設選字。衡諸得失，這個模型提供一些邊際上的改善，應該還是值
得採用的。

2022-01-06 18:28:37 -08:00

1 Commits