Files
2022-03-16 10:39:44 +08:00
..
2022-03-16 10:39:44 +08:00

比赛介绍

本次题目围绕电商领域搜索算法,开发者们可以通过基于阿里巴巴集团自研的高性能分布式搜索引擎问天引擎(提供高工程性能的电商智能搜索平台),可以快速迭代搜索算法,无需自主建设检索全链路环境。

本次评测的数据来自于淘宝搜索真实的业务场景其中整个搜索商品集合按照商品的类别随机抽样保证了数据的多样性搜索Query和相关的商品来自点击行为日志并通过模型+人工确认的方式完成校验保证了训练和测试数据的准确性。

比赛官网:https://tianchi.aliyun.com/competition/entrance/531946/introduction

学习内容

任务1环境配置、实践数据下载

  • 任务内容:
    • 从比赛官网下载数据集并使用Python读取数据
    • 使用jieba对文本进行分词
    • 使用TFIDF对文本进行编码
    • 写出使用TFIDF计算文本相似度的方法
  • 学习资料:https://coggle.club/blog/tianchi-open-search

任务2词向量介绍与训练

  • 任务内容:
    • 使用任务1得到数据使用gensim训练词向量
    • 计算与格力相似的Top10单词
    • 使用词向量完成句子编码例如单词编码为128维度一个句子包含十个单词为10*128
    • 对句子编码10*128进行求均值转变为128维度
    • 扩展你能使用计算得到的词向量计算train.query.txt和corpus.tsv文本的相似度吗train选择100条文本corpus选择100条文本
  • 学习资料:

任务3IDF与词向量编码

  • 任务内容:
    • 基于任务2的编码 & 训练集标注数据筛选1k条train.query.txt文本以及对应的在corpus.tsv文本的文本。
    • 使用任务2的编码方法对1k train 和 1k corpus的文本进行编码
    • 模拟文本检索的过程train的文本128向量计算与corpus文本的向量相似度
    • 检索完成1k文本后你能完成计算MRR吗MRR计算为1/正确corpus文本的次序
    • 扩展你能使用单词的IDF筛选单词IDF可以从任务1得到然后再对句子进行编码吗
  • 学习资料:

任务4文本编码与提交

  • 任务内容:
    • 使用任务2 & 任务3的思路对dev.query.txt和corpus.tsv进行编码
    • 将编码结果编码为比赛需要的格式
    • 将结果打包提交到天池,得到具体得到
  • 学习资料: