Update readme.md
This commit is contained in:
@@ -25,9 +25,26 @@
|
||||
- 计算与`格力`相似的Top10单词
|
||||
- 使用词向量完成句子编码(例如单词编码为128维度,一个句子包含十个单词为10*128)
|
||||
- 对句子编码10*128进行求均值,转变为128维度
|
||||
- 扩展:你能使用计算得到的词向量,计算train和corpus文本的相似度吗?
|
||||
- 扩展:你能使用计算得到的词向量,计算train.query.txt和corpus.tsv文本的相似度吗(train选择100条文本,corpus选择100条文本)?
|
||||
- 学习资料:
|
||||
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)
|
||||
- [https://radimrehurek.com/gensim/models/word2vec.html](https://radimrehurek.com/gensim/models/word2vec.html)
|
||||
|
||||
## 任务3:IDF与词向量编码
|
||||
### 任务3:IDF与词向量编码
|
||||
- 任务内容:
|
||||
- 基于任务2的编码 & 训练集标注数据:筛选1k条train.query.txt文本,以及对应的在corpus.tsv文本的文本。
|
||||
- 使用任务2的编码方法对1k train 和 1k corpus的文本进行编码
|
||||
- 模拟文本检索的过程:train的文本128向量计算与corpus文本的向量相似度
|
||||
- 检索完成1k文本后,你能完成计算MRR吗(MRR计算为:1/正确corpus文本的次序)?
|
||||
- 扩展:你能使用单词的IDF筛选单词(IDF可以从任务1得到),然后再对句子进行编码吗?
|
||||
- 学习资料:
|
||||
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)
|
||||
|
||||
|
||||
### 任务4:文本编码与提交
|
||||
- 任务内容:
|
||||
- 使用任务2 & 任务3的思路对dev.query.txt和corpus.tsv进行编码
|
||||
- 将编码结果编码为比赛需要的格式
|
||||
- 将结果打包提交到天池,得到具体得到
|
||||
- 学习资料:
|
||||
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)
|
||||
|
||||
Reference in New Issue
Block a user