team-learning-data-mining

Files

T

History

Yuzhong Liu 2f79d90937 Update readme.md

2022-03-16 10:39:44 +08:00

readme.md

Update readme.md

2022-03-16 10:39:44 +08:00

比赛介绍

本次题目围绕电商领域搜索算法，开发者们可以通过基于阿里巴巴集团自研的高性能分布式搜索引擎问天引擎（提供高工程性能的电商智能搜索平台），可以快速迭代搜索算法，无需自主建设检索全链路环境。

本次评测的数据来自于淘宝搜索真实的业务场景，其中整个搜索商品集合按照商品的类别随机抽样保证了数据的多样性，搜索Query和相关的商品来自点击行为日志并通过模型+人工确认的方式完成校验保证了训练和测试数据的准确性。

任务内容：
- 从比赛官网下载数据集，并使用Python读取数据
- 使用jieba对文本进行分词
- 使用TFIDF对文本进行编码
- 写出使用TFIDF计算文本相似度的方法
学习资料：https://coggle.club/blog/tianchi-open-search

任务内容：
- 使用任务1得到数据使用gensim训练词向量
- 计算与格力相似的Top10单词
- 使用词向量完成句子编码（例如单词编码为128维度，一个句子包含十个单词为10*128）
- 对句子编码10*128进行求均值，转变为128维度
- 扩展：你能使用计算得到的词向量，计算train.query.txt和corpus.tsv文本的相似度吗（train选择100条文本，corpus选择100条文本）？
学习资料：
- https://coggle.club/blog/tianchi-open-search
- https://radimrehurek.com/gensim/models/word2vec.html

任务内容：
- 使用任务2 & 任务3的思路对dev.query.txt和corpus.tsv进行编码
- 将编码结果编码为比赛需要的格式
- 将结果打包提交到天池，得到具体得到
学习资料：
- https://coggle.club/blog/tianchi-open-search