Gemini 使用教程,将从最简单的方式开始,逐步深入

第一部分:最简单的方式 - 直接对话

对于大多数普通用户,最快体验 Gemini 的方式就是直接与它对话。

  1. 访问 Bard(现已更名为 Gemini)

  2. 开始聊天

    • 在输入框中直接输入你的问题或指令,就像和我聊天一样。

    • Gemini 支持多模态输入。你可以点击输入框旁的上传文件图片图标,上传图像并询问相关问题。

      • 例如:上传一张花的照片,问它“这是什么花?”

      • 例如:上传一张表格的截图,让它“帮我提取这个表格中的数据”。

  3. 主要功能

    • 文本生成与对话:写邮件、写代码、头脑风暴、翻译等。

    • 图像理解:描述图片、从图片中提取文字、解答图片相关的问题。

    • 语音输入:在移动端 App 上可以使用语音输入。

    • 联网搜索:确保开启 Google 搜索 选项,它可以获取最新信息。


第二部分:面向开发者 - 使用 API

如果你想在自己的应用程序(如 Python 脚本、网站等)中集成 Gemini,需要使用其 API。

步骤 1:获取 API 密钥
  1. 访问 Google AI Studiohttps://aistudio.google.com/

  2. 使用你的 Google 账户登录。

  3. 点击 Get API key(获取 API 密钥)按钮。

  4. 创建一个新的 API 密钥并妥善保存。(注意:不要泄露这个密钥!)

步骤 2:安装 SDK

以 Python 为例,首先安装官方库:

bash

pip install google-generativeai
步骤 3:基础代码示例

示例 1:纯文本交互

python

import google.generativeai as genai

# 1. 配置你的 API 密钥
genai.configure(api_key="YOUR_API_KEY") # 将 YOUR_API_KEY 替换为你的真实密钥

# 2. 选择模型(这里使用 gemini-pro 进行文本生成)
model = genai.GenerativeModel('gemini-pro')

# 3. 生成内容
response = model.generate_content("用简单的语言解释一下人工智能是什么?")

# 4. 打印结果
print(response.text)

示例 2:图片交互(多模态)

python

import google.generativeai as genai
import PIL.Image

# 配置 API 密钥
genai.configure(api_key="YOUR_API_KEY")

# 选择支持多模态的模型(gemini-pro-vision)
model = genai.GenerativeModel('gemini-pro-vision')

# 加载一张本地图片
img = PIL.Image.open('path_to_your_image.jpg') # 将 path_to_your_image.jpg 替换为你的图片路径

# 根据图片生成描述
response = model.generate_content(["请描述这张图片里有什么", img])

print(response.text)

示例 3:多轮对话(Chat)

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# 创建模型并开启聊天会话
model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])

# 第一轮
response = chat.send_message("你好,我的名字是小明。")
print(response.text)

# 第二轮,模型会记住上下文
response = chat.send_message("还记得我叫什么名字吗?")
print(response.text)

# 查看完整的聊天历史
for message in chat.history:
    print(f'{message.role}: {message.parts[0].text}')

第三部分:核心概念与技巧

1. 主要模型介绍
  • gemini-pro:优化的文本生成模型,适用于各种文本任务。

  • gemini-pro-vision:支持文本和图像输入的多模态模型。

  • embedding-001:用于生成文本嵌入向量,适用于搜索、聚类等。

2. 安全设置

Gemini API 内置了安全过滤器,你可以根据需要调整,以避免生成有害内容。

python

generation_config = {
    "temperature": 0.9,      # 控制随机性 (0.0 ~ 1.0),值越高回答越随机/有创意
    "top_p": 0.8,
    "top_k": 40,
    "max_output_tokens": 2048, # 限制回答的最大长度
}

model = genai.GenerativeModel(
    'gemini-pro',
    generation_config=generation_config
)
3. 处理文件

除了本地图片,你还可以直接从网络加载图片。

python

import requests
from PIL import Image

url = "https://example.com/some-image.jpg"
img = Image.open(requests.get(url, stream=True).raw)
# ... 之后的使用方法与示例2相同

第四部分:最佳实践与注意事项

  1. 错误处理:你的代码应该处理可能出现的异常(如 API 调用失败、内容被安全策略阻止等)。

  2. 速率限制:免费版 API 有调用次数限制,请注意查看 AI Studio 中的配额信息。

  3. 内容安全:不要在代码中硬编码 API 密钥。应该使用环境变量或安全的密钥管理服务。

    python

    import os
    api_key = os.getenv('GEMINI_API_KEY')
    genai.configure(api_key=api_key)
  4. 保持更新:Gemini 模型和 SDK 在快速迭代,请关注官方文档以获取最新信息。

从哪里获取更多信息?

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐