分享

2025 年 5 月 20 日

Toonsutra 让漫画栩栩如生:由 Gemini API、Gemini 2.5 Pro 预览版和 Lyria 2 提供支持的沉浸式阅读体验

Sharad Devarajan | Vishal Anand

Toonsutra 的创始人

Avneet Singh

产品经理,Google 合作伙伴创新

Cartwheel 展示主打图片

Toonsutra 是印度最大的网漫和图画小说平台,致力于让全球读者能够畅游网漫的广阔故事世界,尤其注重以印度语提供世界级的故事。为了加深观众互动,Toonsutra 提出了一个问题:如何将传统的漫画阅读体验转变为沉浸式的电影之旅,让声音、音乐和故事以读者梦寐以求的语言自然地流动起来?

打造互动式故事讲述的新篇章

这个问题成为了 Toonsutra 的核心关注点。社区的反馈表明,用户渴望更深入的互动和更广泛的无障碍功能。Toonsutra 认识到 AI 的巨大潜力,并获得了 Google AI Futures Fund 的支持,因此与 Google 的实验室和合作伙伴创新团队展开了合作。他们共同利用 Gemini API(包含 Gemini 2.5 Pro 预览版)和 Lyria 2(Google DeepMind 的音乐生成模型),为全球粉丝重新打造网络漫画体验。

此次合作在 Google I/O 大会上揭晓,展示了 AI 赋能的漫画体验,让故事不再只是停留在页面上,而是能够做出响应并与用户互动,将静态图片转变为动态音频叙事:

  • 自适应 AI 旁白:Gemini 2.5 Pro 预览版可生成与阅读速度相匹配的 AI 旁白,并以独特的语音赋予角色生命力。这对于印度读者尤其重要,因为印度语言的文化细微差别非常大。Gemini 2.5 Pro 的自适应和多语言功能与 Toonsutra 的专有角色上下文引擎相结合,可确保故事讲述的一致性和细致性。
  • 动态音景:借助 Gemini 2.5 Pro 预览版的多模态理解能力以及 Lyria 和 Gemini 的原生音频生成能力,该平台可生成沉浸式音景,包括定制音乐、旁白和动作声音,从刀剑的铿锵声到熙熙攘攘的市场氛围。
  • 增强互动性:由 Gemini 2.5 Pro 预览版提供支持的元素可让读者触发独特的对话、探索隐藏的细节或巧妙地影响叙事线索,从而确保多样的阅读体验。

技术详情

此项目推出了一种新颖的方法,可自动为数字漫画生成沉浸式音频,并附带同步的空间元数据。其核心是基于 Gemini 2.5 Pro 预览版构建的多代理架构,包含以下专业代理:漫画情境提取器、旁白、音乐作曲家、音乐总监和音效代理。

工作流程从漫画内容提取器代理开始,该代理会分析多个漫画章节,以生成全面的剧情简介、流派和角色特征。然后,系统会提取具有明确边界的面板。旁白代理会将脚本中的对话与这些面板对齐,然后通过 Gemini Native Audio 朗读这些富含角色情境的对话。与此同时,受电影配乐的启发,音乐作曲家代理使用 Gemini 2.5 Pro 预览版来辨别各个章节的主题和情感,并将其转化为音乐提示,供 Lyria 生成背景音乐。音乐总监代理会将此音乐映射到特定面板,而音效代理会将面板映射到从数据库中检索到的相关音效标记。

此工作流程最终会生成一个 JSON 文件,其中详细说明了面板坐标、旁白、音效和同步音乐,并将其交付给 Toonsutra 的前端。

Gemini 的一项关键成功之处在于,它能够以印度语(首先是印地语)原生生成这种电影级音频,从而进一步实现 Toonsutra 的无障碍访问使命。

“这是一个非常有趣且令人兴奋的应用场景,可充分利用 Gemini 的多模态和多语言功能。使用 Google 强大的大语言模型从语义上理解图片、角色、绘制草图和主题,是将输入媒体浓缩为基本要素的绝佳机制。Lyria 强大的音乐生成功能和 Gemini 的原生语音功能(尤其是在印度语方面)提升了我们与 Toonsutra 合作提供的最终体验”

- Avneet(Google 合作伙伴创新 PM)

从 Google I/O 到正式版

Google I/O 展会是一个令人难以置信的里程碑,展示了 AI 如何从根本上改进数字内容。对于 Toonsutra 而言,这只是第一章。

正如我们团队经常说的那样:“Toonsutra 的愿景始终是让漫画更具吸引力,让世界各地的每个人都能轻松阅读漫画。与 Google 的这次合作是朝着这一愿景迈出的一大步。我们能够打造这种深度沉浸式 AI 赋能的阅读体验,直接回应了社区的反馈,并加快了创新步伐。我们很高兴在 I/O 大会上获得如此热烈的反响,并渴望将此功能集成到 Toonsutra 应用中,最终甚至探索潜在的 API 来赋能其他创作者。”

Toonsutra 现在专注于将这些功能分阶段集成到其主要应用中,并密切关注社区反馈。他们认为,自己不仅在丰富平台内容,还在帮助打造 AI 增强型内容的新蓝图。

准备好构建了吗?立即探索 Gemini API 文档并开始使用 Google AI Studio

Toonsutra 是 Google AI Futures Fund 的参与者,该基金会投资于有远见的初创公司,并与这些公司合作,共同打造下一代 AI 产品。