【深度学习】spaCy入门与实战：高性能自然语言处理

spaCy是一个用于高级自然语言处理的Python库。它由Matthew Honnibal和Ines Montani于2015年创立。spaCy的设计目标是高性能、易于使用和可扩展性。spaCy内置了多种预训练模型，可用于处理多种语言，包括英语、法语、德语、中文等。它还提供了许多工具和接口，以便用户能够轻松地开发自定义NLP应用程序。参考spaCy官方文档的训练自定义模型指南。spaCy是一个高性

Tony_cccccccc

15507人浏览 · 2023-04-14 18:26:35

Tony_cccccccc · 2023-04-14 18:26:35 发布

本文将介绍spaCy，一种高性能自然语言处理（NLP）库，重点介绍spaCy的主要功能、应用和实践。我们将通过实际代码示例来展示如何使用spaCy进行分词、词性标注、命名实体识别和依存关系解析等任务。本文还将探讨如何利用spaCy进行文本分类和信息提取，以及如何训练自定义模型。我们还将与其他NLP库进行比较，以强调spaCy的优势。

1. spaCy简介

2. 安装spaCy

pip install spacy

3. spaCy基本功能

以下是spaCy的一些基本功能，用于处理自然语言文本。

3.1 分词

分词是将文本拆分为单词和标点符号等基本单位的过程。spaCy能够快速完成分词任务。先在命令行中运行以下命令安装模型：

# 英文模型
python -m spacy download en_core_web_sm
# 中文模型
python -m spacy download zh_core_web_sm

import spacy

nlp = spacy.load("en_core_web_sm")
# 如果是中文文本，则需要加载中文模型
# nlp = spacy.load("zh_core_web_sm")

text = "This is a sentence."
doc = nlp(text)

for token in doc:
    print(token.text)

关于spaCy的分词功能，还可以我参考这篇帖子：分词工具与方法：jieba、spaCy等

3.2 词性标注

词性标注是为文本中的每个单词分配一个词性（例如名词、动词等）的过程。spaCy使用预训练模型自动完成词性标注。

for token in doc:
    print(token.text, token.pos_)

3.3 命名实体识别

命名实体识别（NER）是识别和分类文本中的命名实体（例如人名、地名、公司名等）的过程。spaCy的预训练模型可以自动识别多种类型的命名实体。

for ent in doc.ents:
    print(ent.text, ent.label_)

3.4 依存关系解析

依存关系解析是确定文本中单词之间的句法关系（如主语、宾语等）的过程。spaCy可以自动分析单词之间的依存关系，从而帮助我们更好地理解文本结构。

for token in doc:
    print(token.text, token.dep_, token.head.text)

以上列举了spaCy的一些基本功能。实际上，spaCy还包括许多其他功能，如文本相似度计算、词向量生成、句子边界检测等。你可以通过阅读spaCy官方文档来了解更多关于spaCy的信息。

4. 文本分类

spaCy的文本分类主要依赖于其内置的TextCategorizer组件。首先，我们需要创建一个训练数据集，然后使用spaCy进行训练。

在处理中文文本分类的时候，spaCy试图加载一个中文分词库（pkuseg），因此需要安装pkuseg库及其相关的预训练模型。

首先，确保您已经安装了pkuseg库。如果没有，请运行以下命令安装：

pip install pkuseg

然后，您需要下载预训练的pkuseg模型。您可以从GitHub上pkuseg-python项目的releases页面下载。
下载完成后，将预训练模型文件解压缩到一个目录。假设您将预训练模型解压缩到名为pkuseg_model的目录中。
接下来，我们需要创建并配置分词器：

import spacy
from spacy.lang.zh import Chinese, try_pkuseg_import

class CustomChineseTokenizer(Chinese):
    def initialize(self, get_examples, **kwargs):
        self.pkuseg_seg = try_pkuseg_import(pkuseg_model="pkuseg_model", pkuseg_user_dict=None)
        return super().initialize(get_examples, **kwargs)

nlp = CustomChineseTokenizer()

以下是一个完整的示例，展示了如何使用spaCy进行文本分类：

import spacy
from spacy.util import minibatch, compounding
from spacy.pipeline.textcat import Config, single_label_cnn_config
import random

from spacy.lang.zh import Chinese, try_pkuseg_import
from spacy.training import Example


# 创建训练数据
train_data = [
    ("这是一个好消息。", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
    ("我很高兴。", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
    ("这是一个糟糕的经历。", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}}),
    ("我很沮丧。", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}})
]

# 加载中文模型
class CustomChineseTokenizer(Chinese):
    def initialize(self, get_examples, **kwargs):
        self.pkuseg_seg = try_pkuseg_import(pkuseg_model="pkuseg_model", pkuseg_user_dict=None)
        return super().initialize(get_examples, **kwargs)

nlp = CustomChineseTokenizer()

# 添加TextCategorizer组件
config = Config().from_str(single_label_cnn_config)
if "textcat" not in nlp.pipe_names:
    textcat = nlp.add_pipe("textcat", config=config , last=True)
else:
    textcat = nlp.get_pipe("textcat")

# 添加标签
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

# 训练模型
n_iter = 20
random.seed(1)
spacy.util.fix_random_seed(1)

optimizer = nlp.begin_training()
batch_sizes = compounding(4.0, 32.0, 1.001)
# 更新训练循环
for i in range(n_iter):
    losses = {}
    batches = minibatch(train_data, size=batch_sizes)
    for batch in batches:
        examples = []
        for text, annotations in batch:
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, annotations)
            examples.append(example)
        nlp.update(examples, sgd=optimizer, drop=0.2, losses=losses)
    print(f"迭代次数：{i+1}，损失：{losses['textcat']}")

# 测试分类器
test_text = "这个消息让人高兴。"
doc = nlp(test_text)
print(f"文本：{test_text}")
for label, score in doc.cats.items():
    print(f"{label}: {score}")

这个示例首先创建了一个简单的训练数据集，其中包含正面和负面情感的句子。接着，我们加载了中文模型，并添加了TextCategorizer组件。然后，我们为正面和负面情感添加了标签，并进行了20次迭代的训练。

训练完成后，我们使用一个测试文本来查看分类器的预测结果。

迭代次数：1，损失：0.25
迭代次数：2，损失：0.24783627688884735
迭代次数：3，损失：0.243463397026062
迭代次数：4，损失：0.23672938346862793
迭代次数：5，损失：0.23108384013175964
迭代次数：6，损失：0.22520506381988525
迭代次数：7，损失：0.20326930284500122
迭代次数：8，损失：0.16069942712783813
迭代次数：9，损失：0.15615935623645782
迭代次数：10，损失：0.12908345460891724
迭代次数：11，损失：0.1116722971200943
迭代次数：12，损失：0.09159457683563232
迭代次数：13，损失：0.07003745436668396
迭代次数：14，损失：0.05477789789438248
迭代次数：15，损失：0.03252990543842316
迭代次数：16，损失：0.02523144707083702
迭代次数：17，损失：0.00921378843486309
迭代次数：18，损失：0.004524371586740017
迭代次数：19，损失：0.003985351417213678
迭代次数：20，损失：0.0013836633879691362
文本：这个消息让人高兴。
POSITIVE: 0.9919237494468689
NEGATIVE: 0.008076261729001999

请注意，这个示例使用了非常简单的训练数据和迭代次数，因此分类器的性能可能不会很高。在实际应用中，您需要更大的训练数据集以及更多的迭代次数以获得更好的性能。

5. 信息提取

import spacy

nlp = spacy.load("en_core_web_sm")

text = "Apple Inc. is an American multinational technology company headquartered in Cupertino, California."
doc = nlp(text)

# 提取公司名和总部所在地
for ent in doc.ents:
    if ent.label_ == "ORG":
        org = ent.text
    elif ent.label_ == "GPE":
        location = ent.text

print(f"{org} is located in {location}.")