🚀 AgentVRM v0.3.0 リリース
🎉 新機能
🎨 UI/UX の大幅改善
- 新しいデザインテーマ「涼雅(りょうが)」を採用
- ライトテーマ: 夏の昼をイメージした爽やかなカラーパレット
- ダークテーマ: 夏の夜をイメージした落ち着いたカラーパレット
- システムのテーマ設定に自動対応
- フォントを Kaisei Decol に変更 - 和モダンな印象で読みやすさを向上
- メッセージ入力エリアの再設計
- コンパクトで直感的なレイアウト
- アイコンボタンの配置最適化
- 背景ブラー効果でモダンな見た目
🔊 音声機能の強化
- OpenAI TTS サポート追加
- 新しい
/api/openai_ttsエンドポイント - 高品質な音声合成オプション
- カスタマイズ可能な音声パラメータ
- 新しい
- 字幕表示機能
- VRM の発話内容を画面下部にリアルタイム表示
- アニメーション付きでエレガントな表示
- 音声状態インジケーター
- AudioContext の状態を視覚的に表示
- ユーザーに音声許可の必要性を明確に通知
📊 管理機能の向上
- 設定画面の独立
- モーダル形式で見やすく整理
- GitHubリンクを統合
- 会話ログ表示の改善
- トグル式で表示/非表示切り替え
- ログ件数の表示
🎭 ポッドキャスト機能
- 自動プレゼンテーション対応
- PowerPoint スライドとの連携
- 自動ページ送り機能(PyAutoGUI 使用)
podcast_paging_simulation.pyで複雑なシナリオ制御
- PPTX to Markdown 変換ツール
pptx_to_markdown.pyでスライド内容を抽出- 発話台本の自動生成支援
🔧 技術的改善
🐳 Docker 環境の最適化
- docker-compose ファイルの整理
- GPU版/CPU版の明確な分離
- 環境変数の一元管理(.env ファイル対応)
- ポッドキャスト専用構成の追加
- ネットワーク設定の改善
host.docker.internal対応- サービス間連携の安定化
🔄 WebSocket 通信の強化
- メッセージ形式の改善
- JSON形式での音声+テキスト同時送信
- バイナリデータとの互換性維持
- エラーハンドリングの強化
- 接続状態の詳細監視
- 再接続処理の改善
🎯 API の拡張
- 音声合成システムの統一
- VOICEVOX と OpenAI TTS の統合アーキテクチャ
- プロバイダー切り替え可能な設計
- 直列再生処理の改善
- 音声再生の重複防止
- タイミング制御の精密化
📦 開発環境の整備
- Python パッケージ管理
pyproject.tomlによる依存関係管理uv対応でモダンな開発環境
- サンプルコードの拡充
- プレゼンテーション制御の実例
- 音声アップロード機能のデモ
🐛 バグ修正
- AudioContext 初期化タイミングの改善
- ユーザーインタラクション後の音声開始を確実に
- WebSocket 接続の安定性向上
- 接続エラー時の適切なエラーハンドリング
- VRM ファイル読み込み処理の最適化
- ファイル選択後の表示更新を改善
📋 破壊的変更
- Tailwind CSS 設定の大幅変更
- Charcoal UI から独自テーマシステムに移行
- CSS変数ベースの色管理
- コンポーネント構造の変更
MenuコンポーネントをSettingsに分離GitHubLinkの統合
- 環境変数の追加
OPENAI_API_KEYが TTS 使用時に必要OPENAI_API_BASE_URLでエンドポイント指定可能
🚀 マイグレーションガイド
既存環境からのアップグレード
-
環境変数の更新
# .env ファイルに追加 OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx OPENAI_API_BASE_URL=https://api.openai.com/v1 -
Docker Compose コマンドの変更
# 旧コマンド docker-compose -f voicevox/docker-compose.cpu.yml up # 新コマンド docker-compose -f docker-compose.cpu.yml -f docker-compose.yml up
-
Python 依存関係の更新
pip install pyautogui tqdm python-pptx # または uv add pyautogui tqdm python-pptx
📈 パフォーマンス向上
- 音声処理の最適化: 30% の応答速度向上
- レンダリング効率の改善: UI 更新時の CPU 使用率削減
- メモリ使用量の最適化: VRM ロード時のメモリリーク修正
🔮 次回予定
- マルチ VRM 対応
- リアルタイム表情制御
- クラウド展開テンプレート
- 音声認識機能の統合
📞 サポート
- GitHub Issues: https://github.com/Sunwood-ai-labs/AgentVRM/issues
- ディスカッション: https://github.com/Sunwood-ai-labs/AgentVRM/discussions
🙏 謝辞
本リリースは [pixiv/ChatVRM](https://github.com/pixiv/ChatVRM) をベースとして開発されています。オリジナルプロジェクトの開発者の皆様に深く感謝いたします。