你的位置:开云电竞(中国)官方网站 登录入口 > 新闻动态 > 体育游戏app平台AI 口吻就显著弥留起来-开云电竞(中国)官方网站 登录入口

体育游戏app平台AI 口吻就显著弥留起来-开云电竞(中国)官方网站 登录入口

时间:2025-08-29 09:26 点击:120 次

体育游戏app平台AI 口吻就显著弥留起来-开云电竞(中国)官方网站 登录入口

谷歌心仪级产物 NotebookLM,两个本科生自学 3 个月就复刻了?

Nari Labs 刚刚开源的 Dia-1.6B,概况生成对于任何主题的对话,语音音色当然,还会添加口吻、咳嗽声、笑声等。

官方演示提供了与热点语音模子 ElevenLabs 和 SeaSame 的对比,先来感受一下:

Dia-1.6B 模子权重与推理代码全开源,在 GitHub 上不到一天就取得近 5000 标星。

现在 Dia 1.6B 在单张英伟达 RTX A4000 上每秒约可生成 40 个 token,而 86 个 token 简陋是 1 秒的音频施行。

也便是说,在更强的 GPU 或者多卡竖立下不错作念到及时生成音频。

官方示意完好意思版模子需要 10GB 显存出手,往常会添加量化版块,以及 CPU 救济。

不外开源社区依然通过优化 torch 编译进一步普及推理速率和省俭显存。

要是莫得算力资源,也不错到 HuggingFace 试玩 Demo,不外很可惜,现在版块不救济中语。

真正口吻语音生成

使用 Dia-1.6B 相称浅薄,用 [ s1 ] [ s2 ] 标签带标两个不同的音色,现在模子为针对任何音色微调,每次齐会立时得到不同的音色。

要是念念保抓特定音色,不错添加音色指示词(教程稍后发布)或固定立时种子。

口吻会自动妥当笔墨施行,如官方演示中一段与着火了关系的对话,AI 口吻就显著弥留起来。

比较之下,Eleven Labs 和 Seasame 模子生成的口吻照旧不紧不慢的。

只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等身分,异常是笑声会与。其他模子暂不救济这个功能。

不外现在版块的在线 Demo 也有一些问题,由于最大生成时长相对固定,输入的笔墨越多语速就会越快。

要是在参数中诊疗速率因子,会像诊疗音频播放速率相通让声息更低千里,没那么当然了。

两位本科生自学 3 个月打造

Nari Lab 独创成员 Toby Kim 与 Jaeyong Sung,来自韩国首尔大学和韩国科学本领院(KAIST),其中还有一东说念主在服兵役兼员职责,通盘技俩 0 融资启动,自学 3 个月完成。

Toby Kim 泄露技俩灵感恰是来自谷歌客岁爆火的 NoteBook LM 自动生成播客对话功能,但他们念念要对声息的摈弃力更强,剧本的解放度更高。

他们尝试了其时市面上通盘的文本转语音 API 后,合计莫得一个听起来像真正的东说念主类对话。

于是他们靠央求免费的谷歌商酌规划 TPU 资源考验模子,并推选学习初学 TPU 的团队去看 DeepMind 的《How to Scale Your Model》 和 HuggingFace 的《Ultra-Scale Playbook》

往常,他们规划把 Dia 打形成一款完好意思垄断,不错创建道理的对话、再行组合施行并与好友共享。

在线试玩:

https://huggingface.co/spaces/nari-labs/Dia-1.6B

How to Scale Your Model

https://jax-ml.github.io/scaling-book/

Ultra-Scale Playbook

https://huggingface.co/spaces/nanotron/ultrascale-playbook

参考流畅:

[ 1 ] https://x.com/_doyeob_/status/1914464979266449863

[ 2 ] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

一键三连「点赞」「转发」「防御心」

宽饶在挑剔区留住你的念念法!

—  完  —

� � 点亮星标 � �

科技前沿融会逐日见体育游戏app平台

官网: www.zh-oil.com

邮箱: 9c267a85@outlook.com

地址: 新闻动态科技园4597号

Powered by 开云电竞(中国)官方网站 登录入口 RSS地图 HTML地图


开云电竞(中国)官方网站 登录入口-体育游戏app平台AI 口吻就显著弥留起来-开云电竞(中国)官方网站 登录入口