nlp-CGED
Chinese Grammatical Error Diagnosis
中文语法纠错研究 基于序列标注的方法
所需环境
Python==3.6
tensorflow==1.14.0
keras==2.3.1
bert4keras==0.10.6
笔者使用了开源的bert4keras,一个keras版的transformer模型库。bert4keras的更多介绍参见这里。
项目目录
├── bert4keras
├── data 存放数据
├── pretrained_model 存放预训练模型
├── models 存放CRF等算法
├── CGED_train.py 训练代码
├── CGED_predict.py 评估和测试代码
数据集
数据集采用的CGED官方提供 转换为序列标注的形式,具体可以看data中的数据
使用说明
1.下载预训练语言模型
可采用BERT-Base, Chinese等模型
更多的预训练语言模型可参见bert4keras给出的权重。
2.构建数据集(数据集已处理好)
train.json和test.json
3.训练模型
python CGED_train.py
4.评估和测试
python CGED_predict.py
结果
数据集 | f1 | precision | recall |
---|---|---|---|
test | 0.46373 | 0.48993 | 0.44019 |
有任何问题欢迎私聊