体育游戏app平台AI 口吻就显著弥留起来-开云电竞(中国)官方网站 登录入口
谷歌心仪级产物 NotebookLM,两个本科生自学 3 个月就复刻了?
Nari Labs 刚刚开源的 Dia-1.6B,概况生成对于任何主题的对话,语音音色当然,还会添加口吻、咳嗽声、笑声等。
官方演示提供了与热点语音模子 ElevenLabs 和 SeaSame 的对比,先来感受一下:
Dia-1.6B 模子权重与推理代码全开源,在 GitHub 上不到一天就取得近 5000 标星。
现在 Dia 1.6B 在单张英伟达 RTX A4000 上每秒约可生成 40 个 token,而 86 个 token 简陋是 1 秒的音频施行。
也便是说,在更强的 GPU 或者多卡竖立下不错作念到及时生成音频。
官方示意完好意思版模子需要 10GB 显存出手,往常会添加量化版块,以及 CPU 救济。
不外开源社区依然通过优化 torch 编译进一步普及推理速率和省俭显存。
要是莫得算力资源,也不错到 HuggingFace 试玩 Demo,不外很可惜,现在版块不救济中语。
真正口吻语音生成
使用 Dia-1.6B 相称浅薄,用 [ s1 ] [ s2 ] 标签带标两个不同的音色,现在模子为针对任何音色微调,每次齐会立时得到不同的音色。
要是念念保抓特定音色,不错添加音色指示词(教程稍后发布)或固定立时种子。
口吻会自动妥当笔墨施行,如官方演示中一段与着火了关系的对话,AI 口吻就显著弥留起来。
比较之下,Eleven Labs 和 Seasame 模子生成的口吻照旧不紧不慢的。
只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等身分,异常是笑声会与。其他模子暂不救济这个功能。
不外现在版块的在线 Demo 也有一些问题,由于最大生成时长相对固定,输入的笔墨越多语速就会越快。
要是在参数中诊疗速率因子,会像诊疗音频播放速率相通让声息更低千里,没那么当然了。
两位本科生自学 3 个月打造
Nari Lab 独创成员 Toby Kim 与 Jaeyong Sung,来自韩国首尔大学和韩国科学本领院(KAIST),其中还有一东说念主在服兵役兼员职责,通盘技俩 0 融资启动,自学 3 个月完成。
Toby Kim 泄露技俩灵感恰是来自谷歌客岁爆火的 NoteBook LM 自动生成播客对话功能,但他们念念要对声息的摈弃力更强,剧本的解放度更高。
他们尝试了其时市面上通盘的文本转语音 API 后,合计莫得一个听起来像真正的东说念主类对话。
于是他们靠央求免费的谷歌商酌规划 TPU 资源考验模子,并推选学习初学 TPU 的团队去看 DeepMind 的《How to Scale Your Model》 和 HuggingFace 的《Ultra-Scale Playbook》
往常,他们规划把 Dia 打形成一款完好意思垄断,不错创建道理的对话、再行组合施行并与好友共享。
在线试玩:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
How to Scale Your Model
https://jax-ml.github.io/scaling-book/
Ultra-Scale Playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook
参考流畅:
[ 1 ] https://x.com/_doyeob_/status/1914464979266449863
[ 2 ] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/
一键三连「点赞」「转发」「防御心」
宽饶在挑剔区留住你的念念法!
— 完 —
� � 点亮星标 � �
科技前沿融会逐日见体育游戏app平台
-
开云体育跟着大转换的波涛涌入李呈瑞的故土-开云电竞(中国)官方网站 登录入口 2025-09-03
-
欧洲杯体育为了更好地违背敌东谈主的遑急-开云电竞(中国)官方网站 登录入口 2025-09-03
-
开yun体育网谷正文究竟有多狠?对他来说-开云电竞(中国)官方网站 登录入口 2025-09-03
-
开云体育(中国)官方网站并将其用作 “空军一号”-开云电竞(中国)官方网站 登录入口 2025-09-02
-
欧洲杯体育并将于5月12日发布会谈已矣的辘集声明-开云电竞(中国)官方网站 登录入口 2025-09-02