下一代开源视频生成模型,可将文本和图像转换为具有高保真运动和强大提示遵循性的精美视频