nlp-beginner-data

任务一：基于机器学习的文本分类

Model	Dev accuracy	Test accuracy
Logistic regression	51.75	48.50
Softmax regression	71.50	71.25

Softmax regression为自己写的，Logistics regression为sklearn库函数，有很大差距

任务二：基于深度学习的文本分类

Model	Dev accuracy	Test accuracy
CNN	65.95	65.64
RNN	67.37	67.00

结果基于Glove-50d

任务三：基于注意力机制的文本匹配

Model	Dev accuracy	Test accuracy
Conditional Encoding	59.31	56.54
Attention	59.24	56.67
Word-by-word Attention	59.07	55.99
ESIM	59.88	57.72

结果基于Glove-50d

任务四：基于LSTM+CRF的序列标注

Model	Dev F1	Test F1
LSTM+CRF	77.69	84.75
LSTM+CRF R-Drop 0.8	78.27	85.94

F1值为字符级别匹配，实体级别待补充

任务五：基于神经网络的语言模型

bleu基本为0，看预测输出效果是否能有诗词基本规则。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
task1		task1
task2		task2
task3		task3
task4		task4
task5		task5
README.md		README.md
task1.py		task1.py
task2.py		task2.py
task3.py		task3.py
task4.py		task4.py
task5.py		task5.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

nlp-beginner-data

任务一：基于机器学习的文本分类

任务二：基于深度学习的文本分类

任务三：基于注意力机制的文本匹配

任务四：基于LSTM+CRF的序列标注

任务五：基于神经网络的语言模型

About

Uh oh!

Releases

Packages

Languages

qianmuuq/nlp-beginner-data

Folders and files

Latest commit

History

Repository files navigation

nlp-beginner-data

任务一：基于机器学习的文本分类

任务二：基于深度学习的文本分类

任务三：基于注意力机制的文本匹配

任务四：基于LSTM+CRF的序列标注

任务五：基于神经网络的语言模型

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages