bert-utils

本文基于Google开源的BERT代码进行了进一步的简化，方便生成句向量与做文本分类

***** New July 1st, 2019 *****

修改句向量graph文件的生成方式，提升句向量启动速度。不再每次以临时文件的方式生成，首次执行extract_feature.py时会创建tmp/result/graph，再次执行时直接读取该文件，如果args.py文件内容有修改，需要删除tmp/result/graph文件
修复同时启动两个进程生成句向量时代码报错的bug
修改文本匹配数据集为QA_corpus，该份数据相比于蚂蚁金服的数据更有权威性

1、下载BERT中文模型

2、把下载好的模型添加到当前目录下

3、句向量生成

生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考extract_feature.py的main方法，注意参数必须是一个list。

首次生成句向量时需要加载graph，并在output_dir路径下生成一个新的graph文件，因此速度比较慢，再次调用速度会很快

from bert.extrac_feature import BertVector
bv = BertVector()
bv.encode(['今天天气不错'])

4、文本分类

文本分类需要做fine tune，首先把数据准备好存放在data目录下，训练集的名字必须为train.csv，验证集的名字必须为dev.csv，测试集的名字必须为test.csv，必须先调用set_mode方法，可参考similarity.py的main方法，

训练：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.TRAIN)
bs.train()

验证：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.EVAL)
bs.eval()

测试：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.PREDICT)
bs.test()

5、DEMO中自带了QA_corpus数据集，这里给出地址，该份数据的生成方式请参阅附件中的论文The BQ Corpus.pdf

Name	Name	Last commit message	Last commit date
Latest commit terrifyzhao Update The BQ Corpus.pdf Jul 1, 2019 1d5f3eb · Jul 1, 2019 History 30 Commits
data	data	修改数据集	Jul 1, 2019
.gitignore	.gitignore	序列长度改为None	Apr 19, 2019
LICENSE	LICENSE	Create LICENSE	Mar 19, 2019
README.md	README.md	添加BQ数据集论文	Jul 1, 2019
The BQ Corpus.pdf	The BQ Corpus.pdf	Update The BQ Corpus.pdf	Jul 1, 2019
__init__.py	__init__.py	添加代码	Jan 29, 2019
args.py	args.py	优化句向量生成速度	Jul 1, 2019
bert_vec.py	bert_vec.py	添加bert句向量持久化代码	May 27, 2019
extract_feature.py	extract_feature.py	优化句向量生成速度	Jul 1, 2019
graph.py	graph.py	优化句向量生成速度	Jul 1, 2019
modeling.py	modeling.py	添加代码	Jan 29, 2019
optimization.py	optimization.py	添加代码	Jan 29, 2019
requirements.txt	requirements.txt	添加代码	Jan 29, 2019
similarity.py	similarity.py	修改配置参数	Jan 30, 2019
tokenization.py	tokenization.py	添加代码	Jan 29, 2019

Provide feedback