这是indexloc提供的服务,不要输入任何密码
Skip to content

🚀 AgentVRM v0.3.0 リリース

Choose a tag to compare

@Sunwood-ai-labs Sunwood-ai-labs released this 09 Sep 14:00
· 41 commits to main since this release
273b4406954002448185a055699d6414159c0e207dad52f7207f8bbe

🎉 新機能

🎨 UI/UX の大幅改善

  • 新しいデザインテーマ「涼雅(りょうが)」を採用
    • ライトテーマ: 夏の昼をイメージした爽やかなカラーパレット
    • ダークテーマ: 夏の夜をイメージした落ち着いたカラーパレット
    • システムのテーマ設定に自動対応
  • フォントを Kaisei Decol に変更 - 和モダンな印象で読みやすさを向上
  • メッセージ入力エリアの再設計
    • コンパクトで直感的なレイアウト
    • アイコンボタンの配置最適化
    • 背景ブラー効果でモダンな見た目

🔊 音声機能の強化

  • OpenAI TTS サポート追加
    • 新しい /api/openai_tts エンドポイント
    • 高品質な音声合成オプション
    • カスタマイズ可能な音声パラメータ
  • 字幕表示機能
    • VRM の発話内容を画面下部にリアルタイム表示
    • アニメーション付きでエレガントな表示
  • 音声状態インジケーター
    • AudioContext の状態を視覚的に表示
    • ユーザーに音声許可の必要性を明確に通知

📊 管理機能の向上

  • 設定画面の独立
    • モーダル形式で見やすく整理
    • GitHubリンクを統合
  • 会話ログ表示の改善
    • トグル式で表示/非表示切り替え
    • ログ件数の表示

🎭 ポッドキャスト機能

  • 自動プレゼンテーション対応
    • PowerPoint スライドとの連携
    • 自動ページ送り機能(PyAutoGUI 使用)
    • podcast_paging_simulation.py で複雑なシナリオ制御
  • PPTX to Markdown 変換ツール
    • pptx_to_markdown.py でスライド内容を抽出
    • 発話台本の自動生成支援

🔧 技術的改善

🐳 Docker 環境の最適化

  • docker-compose ファイルの整理
    • GPU版/CPU版の明確な分離
    • 環境変数の一元管理(.env ファイル対応)
    • ポッドキャスト専用構成の追加
  • ネットワーク設定の改善
    • host.docker.internal 対応
    • サービス間連携の安定化

🔄 WebSocket 通信の強化

  • メッセージ形式の改善
    • JSON形式での音声+テキスト同時送信
    • バイナリデータとの互換性維持
  • エラーハンドリングの強化
    • 接続状態の詳細監視
    • 再接続処理の改善

🎯 API の拡張

  • 音声合成システムの統一
    • VOICEVOX と OpenAI TTS の統合アーキテクチャ
    • プロバイダー切り替え可能な設計
  • 直列再生処理の改善
    • 音声再生の重複防止
    • タイミング制御の精密化

📦 開発環境の整備

  • Python パッケージ管理
    • pyproject.toml による依存関係管理
    • uv 対応でモダンな開発環境
  • サンプルコードの拡充
    • プレゼンテーション制御の実例
    • 音声アップロード機能のデモ

🐛 バグ修正

  • AudioContext 初期化タイミングの改善
    • ユーザーインタラクション後の音声開始を確実に
  • WebSocket 接続の安定性向上
    • 接続エラー時の適切なエラーハンドリング
  • VRM ファイル読み込み処理の最適化
    • ファイル選択後の表示更新を改善

📋 破壊的変更

  • Tailwind CSS 設定の大幅変更
    • Charcoal UI から独自テーマシステムに移行
    • CSS変数ベースの色管理
  • コンポーネント構造の変更
    • Menu コンポーネントを Settings に分離
    • GitHubLink の統合
  • 環境変数の追加
    • OPENAI_API_KEY が TTS 使用時に必要
    • OPENAI_API_BASE_URL でエンドポイント指定可能

🚀 マイグレーションガイド

既存環境からのアップグレード

  1. 環境変数の更新

    # .env ファイルに追加
    OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    OPENAI_API_BASE_URL=https://api.openai.com/v1
  2. Docker Compose コマンドの変更

    # 旧コマンド
    docker-compose -f voicevox/docker-compose.cpu.yml up
    
    # 新コマンド
    docker-compose -f docker-compose.cpu.yml -f docker-compose.yml up
  3. Python 依存関係の更新

    pip install pyautogui tqdm python-pptx
    # または
    uv add pyautogui tqdm python-pptx

📈 パフォーマンス向上

  • 音声処理の最適化: 30% の応答速度向上
  • レンダリング効率の改善: UI 更新時の CPU 使用率削減
  • メモリ使用量の最適化: VRM ロード時のメモリリーク修正

🔮 次回予定

  • マルチ VRM 対応
  • リアルタイム表情制御
  • クラウド展開テンプレート
  • 音声認識機能の統合

📞 サポート

🙏 謝辞

本リリースは [pixiv/ChatVRM](https://github.com/pixiv/ChatVRM) をベースとして開発されています。オリジナルプロジェクトの開発者の皆様に深く感謝いたします。