Update readme.md

This commit is contained in:
Yuzhong Liu
2022-03-16 10:39:44 +08:00
committed by GitHub
parent 4975c0fa4d
commit 2f79d90937

View File

@@ -25,9 +25,26 @@
- 计算与`格力`相似的Top10单词
- 使用词向量完成句子编码例如单词编码为128维度一个句子包含十个单词为10*128
- 对句子编码10*128进行求均值转变为128维度
- 扩展你能使用计算得到的词向量计算train和corpus文本的相似度吗
- 扩展你能使用计算得到的词向量计算train.query.txt和corpus.tsv文本的相似度吗train选择100条文本corpus选择100条文本
- 学习资料:
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)
- [https://radimrehurek.com/gensim/models/word2vec.html](https://radimrehurek.com/gensim/models/word2vec.html)
## 任务3IDF与词向量编码
### 任务3IDF与词向量编码
- 任务内容:
- 基于任务2的编码 & 训练集标注数据筛选1k条train.query.txt文本以及对应的在corpus.tsv文本的文本。
- 使用任务2的编码方法对1k train 和 1k corpus的文本进行编码
- 模拟文本检索的过程train的文本128向量计算与corpus文本的向量相似度
- 检索完成1k文本后你能完成计算MRR吗MRR计算为1/正确corpus文本的次序
- 扩展你能使用单词的IDF筛选单词IDF可以从任务1得到然后再对句子进行编码吗
- 学习资料:
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)
### 任务4文本编码与提交
- 任务内容:
- 使用任务2 & 任务3的思路对dev.query.txt和corpus.tsv进行编码
- 将编码结果编码为比赛需要的格式
- 将结果打包提交到天池,得到具体得到
- 学习资料:
- [https://coggle.club/blog/tianchi-open-search](https://coggle.club/blog/tianchi-open-search)