AI数字人:AI数字人制作初探及相关开源简介

03-15 阅读 0评论

文章目录

    • @[toc]
    • 简介
    • 一、SadTalker
    • 二、Wav2Lip
    • 三、Thin-Plate Spline Motion Model
    • 四、Real_Time_Image_Animation
    • 五、Text2Speech
    • 六、语言模型
    • 其他

简介

数字人这名字听着稀奇又别扭,其实它最初的原型大家都听过——NPC。玩过游戏的应该都知道,也就是游戏内玩家操纵的游戏角色,可以和玩家进行交互的角色。广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字人,在平常的观感上,数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。他通过对人物形象的复制模拟,人物声音的克隆及语音合成,可随时随地与真人进行准确交互性对话。

AI数字人:AI数字人制作初探及相关开源简介,AI数字人:AI数字人制作初探及相关开源简介,词库加载错误:未能找到文件“C:\Users\Administrator\Desktop\火车头9.8破解版\Configuration\Dict_Stopwords.txt”。,使用,ChatGPT,人工智能,第1张
(图片来源网络,侵删)

通俗的讲所谓数字人,本质上是AI的一种进化,是通过计算机图形学技术进行虚拟制作的类人形象,没有现实世界中的身体。数字人的本体存在于计算设备中(比如电脑、手机)中,通过显示设备呈现出来,让人类能通过眼睛看见。它具备人类的外观和行为模式,数字人具有人类身体的外观形体结构,表现出来的行为模式是与人类相仿的,数字人的影像通常是呈现出某种人类的活动。

下面收集了几个开源的数字人项目,整理出来了,大家一起学习,希望对大家有所帮助。

一、SadTalker

https://github.com/OpenTalker/SadTalker

AI数字人:AI数字人制作初探及相关开源简介

它可以通过音频驱动图像,生成真实感的3D人脸动画,使得人物可以“开口说话”。

AI数字人:AI数字人制作初探及相关开源简介

AI数字人:AI数字人制作初探及相关开源简介,AI数字人:AI数字人制作初探及相关开源简介,词库加载错误:未能找到文件“C:\Users\Administrator\Desktop\火车头9.8破解版\Configuration\Dict_Stopwords.txt”。,使用,ChatGPT,人工智能,第4张
(图片来源网络,侵删)

而且,非常方便的是,可以直接集成到stable-diffusion-webui

AI数字人:AI数字人制作初探及相关开源简介

一张图 + 音频 => 视频, 我找了2张图,一段音频,跑了2次。结果还不错,口型几乎都是吻合的。

AI数字人:AI数字人制作初探及相关开源简介

二、Wav2Lip

https://github.com/Rudrabha/Wav2Lip

  • 将视频与任何目标语音进行口型同步
  • 适用于任何身份,声音和语言。也适用于CGI人脸和合成语音。
  • 你可以自己训练、或者使用预训练模型

    原视频 + 音频 => 新视频 ,这是一个2020年启动的项目,有段时间没有更新,但是如果有需要,还是值得看看的。

    AI数字人:AI数字人制作初探及相关开源简介,AI数字人:AI数字人制作初探及相关开源简介,词库加载错误:未能找到文件“C:\Users\Administrator\Desktop\火车头9.8破解版\Configuration\Dict_Stopwords.txt”。,使用,ChatGPT,人工智能,第7张
    (图片来源网络,侵删)

    三、Thin-Plate Spline Motion Model

    https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model.git

    使用视频,驱动静态图片。“让任何图片开口,讲任何话”。

    AI数字人:AI数字人制作初探及相关开源简介

    再看一个视频交流互动的例子

    AI数字人:AI数字人制作初探及相关开源简介

    四、Real_Time_Image_Animation

    https://github.com/anandpawara/Real_Time_Image_Animation

    就像项目名称所说的,支持实时驱动静态图像,生成视频/视频流。没错,支持实时摄像头!

    AI数字人:AI数字人制作初探及相关开源简介

    总结一下,“你可以让任何图片说任何话”,“你可以让任何人说任何话。”

    五、Text2Speech

    文本生成音频。已经相对比较成熟了,像讯飞,微软,很多人一直在使用他们的产品。

    六、语言模型

    这个就很多了,从国内到国外,太多了,有的人都说千模大战了。ChatGPT,GPT4,GPT5,文心,星火,源,盘古。有了语言模型,人物有了自己的“精神世界”,可以训练特定的人物语言风格,你可以与数字人对话交流,再使用文本生成相应的音频,然后使用音频驱动图片,产生人物表情、姿态,甚至动作,从而最终实现视频交流。比如,你可以在头条上看到的24小时数字人新闻直播:

    AI数字人:AI数字人制作初探及相关开源简介

    因为这个不需要互动,基本上 信息收集 + 缓冲队列 + 画面音频驱动 就可以实现了。而想要达到实时互动的效果,比如视频聊天机器人,需要生成计算人物表情甚至动作,延迟是少不了,而且现有技术条件下,需要消耗巨大的算力,一般的公司或者个人无法承担。除非有牛X的创新的技术出现。因此,你会看到,包括不久前的character AI,拥有相当多的角色人物,但是只能响应文本内容…

    AI数字人:AI数字人制作初探及相关开源简介

    其他

    参考:https://www.toutiao.com/article/7242460144024732195


免责声明
本网站所收集的部分公开资料来源于AI生成和互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,人围观)

还没有评论,来说两句吧...

目录[+]