会员登录 立即注册

搜索

视频和音频合成视频Easy_Wav2Lip

[复制链接]
崎山小鹿 发表于 2024-8-13 09:34:19 | 显示全部楼层 |阅读模式
崎山小鹿
2024-8-13 09:34:19 3031 0 看全部
Easy_Wav2Lip  是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

Wav2lip技术的核心在于其深度学习模型的设计和训练。该模型由两个主要部分组成:一个生成器和一个判别器。生成器负责根据输入的语音信号生成相应的唇形运动,而判别器则负责判断生成的唇形是否逼真。在训练过程中,生成器和判别器相互对抗,生成器试图生成更加逼真的唇形,而判别器则试图识别出哪些唇形是真实存在的,哪些是生成器生成的。通过这种方式,生成器逐渐学会生成更加逼真的唇形,从而实现精准的唇形合成。

1. 整体流程
第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)
第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步:预测出来的人脸拼接到原图上,输出位视频。

2. 优缺点
优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。
缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了


软件包运行:go-web.bat    双击就可以了
微信截图_20240813103551.png

运行成功,用浏览器打开:http://127.0.0.1:7860/
微信截图_20240813103616.png

运行成功。
可以上传一段视频和音频试试
微信截图_20240813104532.png
生成中

一分钟视频合成花了50分钟
看看效果


下载地址:
https://pan.baidu.com/s/1U8weRxDY4NTbRfWs7-UWQg?pwd=ai8o

下面是一些使用教程:
最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False

视频质量

Fast快速:Wav2Lip音频转口型模式。
Improved改进:Wav2Lip音频转口型模式 +唇部周围带有遮罩羽化,去除唇部周围边框。
Enhanced增强:Wav2Lip音频转口型模式 + 遮罩羽化 + GFPGAN高清脸部增强
Experimental实验性:在增强的模式上优化执行效率。

分辨率选项

full resolution全分辨率
half resolution半分辨率

Wav2Lip版本选项

Wav2Lip

优点:更准确的口型同步、在没有声音时会保持嘴巴闭合。
缺点:有时会产生牙齿缺失(部分情况下)。

Wav2Lip_GAN

优点:效果看起来更好,保留说话者原有表情。
缺点:不太擅长遮盖原始的嘴唇动作,尤其是在没有声音的情况下。

建议:
先尝试 Wav2Lip,如果遇到口齿上有很大缝隙的效果,再切换到Wav2Lip_GAN版本。

注意:
测试下来半分辨率会在某些情况下存在不兼容问题,建议这个选项选全分辨率

Mask遮罩部分
Mask尺寸

将增加蒙版覆盖的区域的大小。(脸部周围有边框可以减少此数值,例如:1.5)

Mask羽化

决定了蒙版中心和边缘之间的混合量。(脸部周围有边框也可以增加此数值 )

启用Mask嘴部跟踪

会将遮罩的位置更新到嘴巴在每一帧上的位置(速度较慢)

注意:

由于帧被裁剪到脸上,嘴巴位置已经很近似了,只有当发现视频的遮罩似乎没有跟随嘴巴时,才启用此功能。

启用Mask调试

开启后将使背景灰度和蒙版变彩色,可以看到蒙版在框架中的位置。(此参数改成True后,可以更直观的看到参数效果)

参考视频:https://www.bilibili.com/video/BV1ME421P755?t=107.2
资源包有:
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
https://www.yuque.com/chengby/bye72a/hxf81w24ocga8hvi?singleDoc#
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
https://jinshuangshi.com/forum.php?mod=viewthread&tid=132
(出处: 金双石科技)




天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

  • 您可能感兴趣
您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则 返回列表

管理员给TA私信
以墨运商,以商助墨。

查看:3031 | 回复:0

  • 在村子中央建立图书馆

    昨天成绩斐然,收获两栋漂亮海滨别墅,和一个高级瞭望塔,但同时损失惨重,村民损失九

    阅读:0|2024-12-22
  • 墨家小镇文化与经济

    文化建设: 墨家十要 旗帜: 八卦 双鱼戏水 经济建设: 麦田、 甘蔗田

    阅读:156|2024-12-20
  • 墨者的面具

    仿照三星堆的面具做头像

    阅读:151|2024-12-19
  • 从出生地前往墨家小镇集合

    装饰一下出生地 现在有路标了,通过路标让会员找到我们的村庄,一路要非常小心不

    阅读:239|2024-12-18
  • 墨家盾牌和武器

    盾牌上有墨家的标志,武器上也有墨家的特色

    阅读:231|2024-12-17
  • 安全的保险箱

    每个人都一个自己的箱子,只有自己能开启。且死亡不掉落! 对着一个上方没有红石导

    阅读:240|2024-12-17
  • 我的世界之墨家旗帜

    如何在我的世界里创建独特的旗帜呢? 将图片生成像素画 https://chuiliu.github.io/d

    阅读:295|2024-12-16
  • 给服务器增加组件

    给服务器增加组件,例如:墨家旗帜 租赁服务器如何使用mod? 答:目前我的世界纯净

    阅读:356|2024-12-15
  • 用手机玩墨山游侠

    用手机玩墨山游侠 各大应用市场都可以下载我的世界游戏,启动之后 选择【开始游戏】

    阅读:366|2024-12-15
  • 墨山游侠服务器开启

    在网易上开启创服之旅 服务器号:25744989 我们先用游戏版本:1.12.2 来测试,看

    阅读:478|2024-12-14
金双石科技,软件开发20年,技术行业领先,您的满意,就是我们的目标,认真负责,开拓进取,让成品物超所值
关于我们
公司简介
发展历程
联系我们
本站站务
友情链接
新手指南
内容审核
商家合作
广告合作
商家入驻
新闻合作

手机APP

官方微博

官方微信

联系电话:15876572365 地址:深圳市宝安区西乡街道宝民二路宝民花园 ( 粤ICP备2021100124号-1 ) 邮箱:qishanxiaolu@qq.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
快速回复 返回顶部 返回列表