还以为你要去掉视频里的字幕呢。那个要在不破坏图象的基础上做,可能挺难的。(我还知道的有限,不是很确定有没有我不知道的办法。)
市面上speech --> voice的东西很多,但voice --> speech的不大好找,估计精度也有问题。如果没有其他人有更好的办法来解决这个问题,同时你要是不急的话,我可以听了记下来,这对我是很好的听力练习。