深度学习在文本分类中的应用 | 尼格尔的叶子

亲爱的，还有我爱你写作的意义人之患在好为人师

使徒行传第2章使徒行传第1章路加福音第12章路加福音第11章查经笔记下约翰福音第5章第部分路加福音第10章第二部分路加福音第9章第二部分路加福音第10章路加福音第9章路加福音第8章第二部分路加福音第8章第一部分路加福音第7章第二部分路加福音第7章路加福音第6章山上宝训路加福音第6章查经笔记2 路加福音第6章查经笔记路加福音第5章查经笔记路加福音第4章查经笔记最理想的生活状态得人的尊重与得神的喜悦

PyTorch与LibTorch学习记录 python-WebSocket编程知识图谱入门 python学习系统服务 Linux常用命令树莓派编译深度学习库（opencv,dlib,tf）详细步骤 windows 安装tensorflow 入门DeepLearning-小乐陪你读paper 神经网络与深度学习第一章台大机器学习基石笔记4-3 台大机器学习基石笔记4-2 台大机器学习基石笔记4-1 机器学习资源速查索引 MySQL 常用操作

图解Faster-RCNN物体检测 SVM详解之使用numpy低效实现SMO算法使用numpy高效实现 k-means聚类 nnUNet源码解读之analyzeDataset Attention is all you need---可视化理解Transformer结构自然语言翻译基于Seq2Seq的图像latex生成基于Attention的Seq2Seq与Beam搜索 AlphaPig-五子棋版AlphaZero的实现源码解读动态计算图简单的强化习实例讲解：概念篇深度学习在文本分类中的应用

无人车demo：硬件篇

天津和北京 3

最理想的生活状态写作的意义人之患在好为人师

复旦 3

最理想的生活状态写作的意义人之患在好为人师

北京 1

亲爱的，还有我爱你

爱情 1

亲爱的，还有我爱你

数据库 3

深度学习在文本分类中的应用系统服务 MySQL 常用操作

机器学习 6

SVM详解之使用numpy低效实现SMO算法使用numpy高效实现 k-means聚类台大机器学习基石笔记4-3 台大机器学习基石笔记4-2 台大机器学习基石笔记4-1 机器学习资源速查索引

计算机科学 4

图解Faster-RCNN物体检测源码解读动态计算图简单的强化习实例讲解：概念篇机器学习资源速查索引

路加福音 16

路加福音第12章路加福音第11章查经笔记下约翰福音第5章第部分路加福音第10章第二部分路加福音第9章第二部分路加福音第10章路加福音第9章路加福音第8章第二部分路加福音第8章第一部分路加福音第7章第二部分路加福音第7章路加福音第6章山上宝训路加福音第6章查经笔记2 路加福音第6章查经笔记路加福音第5章查经笔记路加福音第4章查经笔记

查经 18

使徒行传第2章使徒行传第1章路加福音第12章路加福音第11章查经笔记下约翰福音第5章第部分路加福音第10章第二部分路加福音第9章第二部分路加福音第10章路加福音第9章路加福音第8章第二部分路加福音第8章第一部分路加福音第7章第二部分路加福音第7章路加福音第6章山上宝训路加福音第6章查经笔记2 路加福音第6章查经笔记路加福音第5章查经笔记路加福音第4章查经笔记

数学 3

台大机器学习基石笔记4-3 台大机器学习基石笔记4-2 台大机器学习基石笔记4-1

神经网络 3

windows 安装tensorflow 入门DeepLearning-小乐陪你读paper 神经网络与深度学习第一章

嵌入式 1

树莓派编译深度学习库（opencv,dlib,tf）详细步骤

Linux 2

PyTorch与LibTorch学习记录 Linux常用命令

使徒行传 2

使徒行传第2章使徒行传第1章

深度学习 2

自然语言翻译无人车demo：硬件篇

前沿科技 1

无人车demo：硬件篇

计算机 6

Attention is all you need---可视化理解Transformer结构 python-WebSocket编程知识图谱入门基于Seq2Seq的图像latex生成基于Attention的Seq2Seq与Beam搜索 AlphaPig-五子棋版AlphaZero的实现

python学习 1

python学习

医学影像分割 1

nnUNet源码解读之analyzeDataset

深度学习在文本分类中的应用

2017年08月11日

字符级别的识别

早期深度学习在自然语言上的应用比较暴力，直接把数据往CNN里怼。文章Text Understanding from Scratch解释了为啥子CNN也能对文本分类：它先对字符集做了一个类似盲文的编码，将字符编码为定长（l）的向量，然后送入CNN网络来分类。

文章厉害的地方在于直接把所有的文本（中文换成拼音）直接怼进去，然后就能取得很厉害的分类结果。表示怀疑，有空了重复实验。还有一篇文章CNN for Sentence Classification稍有改进，把文本进行word embedding后，再送入了CNN。 ,Max-pooling后得到固定长度的feature map。
A C-LSTM for Text Classification更进一步，将卷机后的feature maps送入了window feature sequence后再送入LSTM。
优点在于既能捕获局部特征，又能学习到语义表达。不过针对其他的RNN，CNN变形结构，没有什么明显的优势。

句子级别的识别。

循环（Recurrent）卷机神经网络针对句子过长时，网络无法有效结合上下文信息来表达信息,创造性地提出结合word的上下文来表达每个word的信息一图胜千言
公式表述也很简洁。

文档级别

最近大热的注意力机制很是风骚啊，Hierarchical attention networks for Document Classification 这篇文章最屌的地方在于可以对复杂句进行分类，明明看上去像是褒义的句子，但是它能够辨识出这是反讽！精度上就更不用说了。
。
虽然图画的很复杂，但是代码还真心没有几行的。我们可以再来分析分析它的代码。 太忙了，占坑，过几天再填

-_-below can discuss!-_-