0到1【gemini使用教程】

aolicloud

2779人浏览 · 2025-11-22 15:01:52

aolicloud · 2025-11-22 15:01:52 发布

Gemini 使用教程，将从最简单的方式开始，逐步深入

第一部分：最简单的方式 - 直接对话

对于大多数普通用户，最快体验 Gemini 的方式就是直接与它对话。

访问 Bard（现已更名为 Gemini）：
- 前往 https://gemini.google.com/
- 确保你使用你的 Google 账户登录。
开始聊天：
- 在输入框中直接输入你的问题或指令，就像和我聊天一样。
- Gemini 支持多模态输入。你可以点击输入框旁的上传文件或图片图标，上传图像并询问相关问题。
  - 例如：上传一张花的照片，问它“这是什么花？”
  - 例如：上传一张表格的截图，让它“帮我提取这个表格中的数据”。
主要功能：
- 文本生成与对话：写邮件、写代码、头脑风暴、翻译等。
- 图像理解：描述图片、从图片中提取文字、解答图片相关的问题。
- 语音输入：在移动端 App 上可以使用语音输入。
- 联网搜索：确保开启 Google 搜索 选项，它可以获取最新信息。

第二部分：面向开发者 - 使用 API

如果你想在自己的应用程序（如 Python 脚本、网站等）中集成 Gemini，需要使用其 API。

步骤 1：获取 API 密钥

访问 Google AI Studio：https://aistudio.google.com/
使用你的 Google 账户登录。
点击 Get API key（获取 API 密钥）按钮。
创建一个新的 API 密钥并妥善保存。（注意：不要泄露这个密钥！）

步骤 2：安装 SDK

以 Python 为例，首先安装官方库：

bash

pip install google-generativeai

步骤 3：基础代码示例

示例 1：纯文本交互

python

import google.generativeai as genai

# 1. 配置你的 API 密钥
genai.configure(api_key="YOUR_API_KEY") # 将 YOUR_API_KEY 替换为你的真实密钥

# 2. 选择模型（这里使用 gemini-pro 进行文本生成）
model = genai.GenerativeModel('gemini-pro')

# 3. 生成内容
response = model.generate_content("用简单的语言解释一下人工智能是什么？")

# 4. 打印结果
print(response.text)

示例 2：图片交互（多模态）

python

import google.generativeai as genai
import PIL.Image

# 配置 API 密钥
genai.configure(api_key="YOUR_API_KEY")

# 选择支持多模态的模型（gemini-pro-vision）
model = genai.GenerativeModel('gemini-pro-vision')

# 加载一张本地图片
img = PIL.Image.open('path_to_your_image.jpg') # 将 path_to_your_image.jpg 替换为你的图片路径

# 根据图片生成描述
response = model.generate_content(["请描述这张图片里有什么", img])

print(response.text)

示例 3：多轮对话（Chat）

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# 创建模型并开启聊天会话
model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])

# 第一轮
response = chat.send_message("你好，我的名字是小明。")
print(response.text)

# 第二轮，模型会记住上下文
response = chat.send_message("还记得我叫什么名字吗？")
print(response.text)

# 查看完整的聊天历史
for message in chat.history:
    print(f'{message.role}: {message.parts[0].text}')

第三部分：核心概念与技巧

1. 主要模型介绍

gemini-pro：优化的文本生成模型，适用于各种文本任务。
gemini-pro-vision：支持文本和图像输入的多模态模型。
embedding-001：用于生成文本嵌入向量，适用于搜索、聚类等。

2. 安全设置

Gemini API 内置了安全过滤器，你可以根据需要调整，以避免生成有害内容。

python

generation_config = {
    "temperature": 0.9,      # 控制随机性 (0.0 ~ 1.0)，值越高回答越随机/有创意
    "top_p": 0.8,
    "top_k": 40,
    "max_output_tokens": 2048, # 限制回答的最大长度
}

model = genai.GenerativeModel(
    'gemini-pro',
    generation_config=generation_config
)

3. 处理文件

除了本地图片，你还可以直接从网络加载图片。

python

import requests
from PIL import Image

url = "https://example.com/some-image.jpg"
img = Image.open(requests.get(url, stream=True).raw)
# ... 之后的使用方法与示例2相同

第四部分：最佳实践与注意事项

错误处理：你的代码应该处理可能出现的异常（如 API 调用失败、内容被安全策略阻止等）。
速率限制：免费版 API 有调用次数限制，请注意查看 AI Studio 中的配额信息。
内容安全：不要在代码中硬编码 API 密钥。应该使用环境变量或安全的密钥管理服务。

python
```
import os
api_key = os.getenv('GEMINI_API_KEY')
genai.configure(api_key=api_key)
```
保持更新：Gemini 模型和 SDK 在快速迭代，请关注官方文档以获取最新信息。

从哪里获取更多信息？

官方文档：https://ai.google.dev/tutorials（最权威、最全面的资源）
Python SDK 参考：https://googleapis.dev/python/genai/latest/index.html

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git