深度学习_02-NLP进阶

本文总结了NLP进阶学习第二天的核心内容，主要包括：1）强化文本预处理技术，如jieba分词和词性标注；2）文本向量化方法，包括One-Hot编码和Word2Vec训练；3）数据分析技巧，如分布分析和词云生成；4）RNN系列模型实现，包括LSTM/GRU；5）注意力机制和Transformer架构详解；6）迁移学习应用，如FastText分类和BERT模型使用。文章提供了完整的代码示例，为NLP项

Yardon_Official

271人浏览 · 2026-03-28 21:18:50

Yardon_Official · 2026-03-28 21:18:50 发布

🚀 Day02 - NLP自然语言处理进阶

📖 导读：
第二天学习，继续深入NLP各个模块。

🗺️ 复习与进阶

1.1 文本预处理强化

import jieba
import jieba.posseg as pseg

# 精确模式
text = "传智教育是一家上市公司"
words = jieba.lcut(text)

# 词性标注
result = pseg.lcut(text)
for w, f in result:
    print(f"{w}: {f}")

1.2 自定义词典

jieba.add_word("深度学习", freq=10, tag='n')
jieba.load_userdict("custom_dict.txt")

💻 文本向量化

2.1 One-Hot深化

from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
one_hot = tokenizer.texts_to_matrix(texts, mode='binary')

2.2 Word2Vec训练

import fasttext

model = fasttext.train_unsupervised('corpus.txt', model='cbow', dim=100)
vec = model.get_word_vector("关键词")
similar = model.get_nearest_neighbors("关键词")

📊 数据分析

3.1 分布分析

import pandas as pd
import seaborn as sns

df = pd.read_csv('data.tsv', sep='\t')
df['length'] = df['text'].apply(len)
sns.countplot(x='label', data=df)

3.2 词云生成

from wordcloud import WordCloud

wc = WordCloud(font_path='simhei.ttf').generate(text)
plt.imshow(wc)
plt.axis('off')

🧠 RNN系列

3.1 RNN实现

rnn = nn.RNN(input_size=256, hidden_size=512, num_layers=2, batch_first=True)
output, hidden = rnn(x, h0)

3.2 LSTM/GRU

lstm = nn.LSTM(256, 512, 2, bidirectional=True)
gru = nn.GRU(256, 512, 2, bidirectional=True)

🎯 注意力机制

class Attention(nn.Module):
    def forward(self, hidden, encoder_outputs):
        # 计算注意力权重
        # 加权求和
        return context, weights

🔥 Transformer

编码器

class Encoder(nn.Module):
    def __init__(self, embed_size, heads, num_layers):
        super().__init__()
        self.attention = SelfAttention(embed_size, heads)
        self.norm = nn.LayerNorm(embed_size)
    
    def forward(self, x, mask):
        attn = self.attention(x, x, x, mask)
        return self.norm(x + attn)

解码器

class Decoder(nn.Module):
    def forward(self, x, encoder_out, src_mask, trg_mask):
        # 掩码注意力 + 编码器-解码器注意力
        return output

🚀 迁移学习

FastText分类

model = fasttext.train_supervised('train.txt', lr=0.1, epoch=5)
pred, prob = model.predict('文本')

BERT

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('bert-base-chinese')

📝 总结

Day02继续深入NLP各个模块，为后续项目实战打下基础。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git