什么是耳语?
Whisper 是 OpenAI 的一种自动最先进的语音识别系统,它已经接受了 680,000 小时从网络收集的多语言和多任务监督数据的训练。这个庞大而多样化的数据集提高了对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。与 DALLE-2 和 GPT-3 不同,Whisper 是一种免费的开源模型。OpenAI 发布了模型和代码,作为构建利用语音识别的有用应用程序的基础。
如何转录 YouTube 视频
在本教程中,我们将使用 Whisper 转录 YouTube 视频。我们将使用 Python 包“Pytube”下载将声音转换为文件MP4
。你可以在这里找到 Pytube 的 repo
首先,我们需要安装 Pytube 库。您可以通过在终端中运行以下命令来执行此操作:
!pip install -— upgrade pytube
对于本教程,我将使用这个“100 秒学习 Python”视频。
接下来,我们需要导入 Pytube,提供 YouTube 视频的链接,并将音频转换为MP4
:
#Importing Pytube libraryimport pytube# Reading the YouTube linkvideo = "https://www.youtube.com/watch?v=x7X9w_GIm1s"data = pytube.YouTube(video)# Converting and downloading as 'MP4' fileaudio = data.streams.get_audio_only()audio.download()
输出是一个名为当前目录中视频标题的文件。在我们的例子中,文件名为Python in 100 Seconds.mp4
Now,下一步是将音频转换为文本。我们可以使用 whisper 在三行代码中完成此操作。首先,我们安装并导入whisper。然后我们加载模型,最后我们转录音频文件。
安装 Whisper 库
!pip install git+https://github.com/openai/whisper.git -q
import whisper
加载模型。我们将在本教程中使用“基础”模型。您可以在此处找到有关模型的更多信息。它们中的每一个都在准确性和速度(需要计算)之间进行权衡。
model = whisper.load_model("base")text = model.transcribe("Python in 100 Seconds.mp4")
现在我们可以打印输出了。
#printing the transcribetext['text']
您可以在此处找到 Jupyter Notebook 的完整代码
谢谢你!– AI未来百科 ; 探索AI的边界与未来! 懂您的AI未来站