这是indexloc提供的服务,不要输入任何密码
Skip to content

yisuoyanyv/BailianSDK-example

 
 

Repository files navigation

阿里云百炼多模态语音助手(简化版)

这是一个基于阿里云百炼多模态SDK的语音助手应用,支持语音交互和视觉问答功能。

功能特点

  • 🎤 实时语音交互:支持语音识别和语音合成
  • 📸 视觉问答:通过摄像头拍照并分析图像内容
  • 🔄 双工通信:支持打断和连续对话
  • 😴 空闲模式:长时间无交互自动进入待机

环境要求

  • Python 3.9 或更高版本
  • Windows/Linux/macOS 操作系统
  • 摄像头设备
  • 麦克风和扬声器

安装步骤

  1. 安装依赖

    pip install -r requirements.txt
  2. 配置API密钥

    编辑 config.py 文件,填入您的阿里云百炼API信息:

    APP_ID = "您的APP_ID"
    WORKSPACE_ID = "您的WORKSPACE_ID"
    API_KEY = "您的API_KEY"
  3. 调整摄像头设置

    如果默认摄像头不正确,修改 config.py 中的:

    CAMERA_INDEX = 0  # 改为您的摄像头索引

使用方法

  1. 启动程序

    python main.py
  2. 基本操作

    • 按住空格键:开始说话
    • 松开空格键:结束说话
    • 再次按空格键:打断AI回复
    • ESC键:退出程序
  3. 视觉问答

    说出包含以下关键词的语句会触发拍照分析:

    • "看看这是什么"
    • "拍照分析一下"
    • "看一下画面"

文件结构

简化版/
├── main.py              # 主程序入口
├── config.py            # 配置文件
├── voice_assistant.py   # 语音助手核心模块
├── camera_controller.py # 摄像头控制模块
├── requirements.txt     # 依赖列表
└── README.md           # 本文档

核心模块说明

voice_assistant.py

  • SimplifiedVoiceAssistant:主控制类,管理对话流程
  • SimplifiedCallback:处理SDK回调事件
  • AudioPlayer:管理音频播放

camera_controller.py

  • 摄像头初始化和管理
  • 实时预览窗口
  • 图像捕获和Base64编码

故障排除

  1. 摄像头无法打开

    • 检查摄像头是否被其他程序占用
    • 尝试修改 CAMERA_INDEX
    • 确保摄像头驱动正常
  2. 音频问题

    • Windows: 可能需要安装 Visual C++ Redistributable
    • Linux: 需要安装 portaudio19-dev
    • macOS: 需要通过 Homebrew 安装 portaudio
  3. 网络连接问题

    • 检查网络连接
    • 确认API密钥正确
    • 查看防火墙设置

注意事项

  • 程序需要管理员权限来监听键盘事件(Windows)
  • 首次运行可能需要允许摄像头和麦克风权限
  • API调用会产生费用,请注意使用量

开发说明

如需扩展功能,可以:

  1. SimplifiedCallback 中添加新的回调处理
  2. 修改 config.py 添加新的配置项
  3. 扩展视觉问答的触发关键词

许可证

本项目仅供学习和参考使用。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%