小布助手对话短文本语义匹配的一个baseline

Overview

oppo-text-match

小布助手对话短文本语义匹配的一个baseline

模型

参考:https://kexue.fm/archives/8213

base版本线下大概0.952,线上0.866(单模型,没做K-flod融合)。

训练

测试环境:tensorflow 1.15 + keras 2.3.1 + bert4keras 0.10.0

跑完100epoch可能6小时左右(3090,建议跑完)

预测

from baseline import *
predict_to_file('result.csv')

然后zip result.zip result.csv,最后把result.zip提交即可。

感谢

感谢主办方对本baseline的肯定~

交流

  • 比赛交流群:QQ群753413531
  • 科学空间交流:QQ群808623966,微信群请加机器人微信号spaces_ac_cn
You might also like...
Comments
  • 简单脚本问题咨询

    简单脚本问题咨询

    您好,我有以下问题想要咨询一下哈:

    1. random_mask 函数中,else 里面的 为什么output_ids 赋值为0呢?不太理解哈
    2. 加载预训练的时候,build_transformer_model,keep_tokens=[0, 100, 101, 102, 103, 100, 100] 这几个数字代表的是什么意思呢?
    3. bert4keras 的帮助文档哪里有呢?我看官方的说明文档都没有您调用的相关参数,但是您这边可以添加很多自己的参数,您是通过读源码知道的吗?

    不好意思哈,我是NLP小白,所以问题的问题有点多和基础哈

    opened by ArlanCooper 2
  • segment_ids 是否需要区分text1,text2?

    segment_ids 是否需要区分text1,text2?

    bert 模型有3输入: input_ids: cls text1_id sep text2_id sep token_types_ids:[0](len(text1_ids)+2)+[1](len(text2_ids)+1) attention_mask:[1]*len(input_ids) 看到源码里的sample_convert 函数里对于segment_ids 的定义没有区分句子1和句子2,请问区分一下是不是更好一些?

    opened by husheng-liu 1
  • 关于weights转ckpt模型

    关于weights转ckpt模型

    你好,我在用build_transformer_model初始化后,再load_weights,使用了save_weights_as_checkpoint方法想要进行权重转换,但是会报错Model object has no attribute save_weights_as_checkpoint,请问怎么才能实现转成ckpt权重文件呢

    opened by guowhite 2
Owner
苏剑林(Jianlin Su)
科学爱好者
苏剑林(Jianlin Su)