OpenAI Whisper 教程:如何使用 Whisper 转录 YouTube 视频

OpenAI Whisper 教程:如何使用 Whisper 转录 YouTube 视频

什么是耳语?

Whisper 是 OpenAI 的一种自动最先进的语音识别系统,它已经接受了 680,000 小时从网络收集的多语言和多任务监督数据的训练。这个庞大而多样化的数据集提高了对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。与 DALLE-2 和 GPT-3 不同,Whisper 是一种免费的开源模型。OpenAI 发布了模型和代码,作为构建利用语音识别的有用应用程序的基础。

如何转录 YouTube 视频

在本教程中,我们将使用 Whisper 转录 YouTube 视频。我们将使用 Python 包“Pytube”下载将声音转换为文件MP4。你可以在这里找到 Pytube 的 repo

首先,我们需要安装 Pytube 库。您可以通过在终端中运行以下命令来执行此操作:

!pip install -— upgrade pytube

对于本教程,我将使用这个“100 秒学习 Python”视频。

接下来,我们需要导入 Pytube,提供 YouTube 视频的链接,并将音频转换为MP4

#Importing Pytube libraryimport pytube# Reading the YouTube linkvideo = "https://www.youtube.com/watch?v=x7X9w_GIm1s"data = pytube.YouTube(video)# Converting and downloading as 'MP4' fileaudio = data.streams.get_audio_only()audio.download()

输出是一个名为当前目录中视频标题的文件。在我们的例子中,文件名为Python in 100 Seconds.mp4Now,下一步是将音频转换为文本。我们可以使用 whisper 在三行代码中完成此操作。首先,我们安装并导入whisper。然后我们加载模型,最后我们转录音频文件。

安装 Whisper 库

!pip install git+https://github.com/openai/whisper.git -q
import whisper

加载模型。我们将在本教程中使用“基础”模型。您可以在此处找到有关模型的更多信息。它们中的每一个都在准确性和速度(需要计算)之间进行权衡。

model = whisper.load_model("base")text = model.transcribe("Python in 100 Seconds.mp4")

现在我们可以打印输出了。

#printing the transcribetext['text']

您可以在此处找到 Jupyter Notebook 的完整代码

谢谢你!– AI未来百科 ; 探索AI的边界与未来! 懂您的AI未来站

声明:本站部分文章来源于网络,如有侵犯您的合法权益,请您即时与我们联系,我们将在第一时间处理。如需转载本站文章,请在转载时标明出处并保留原文链接,否则我们将保留追究法律责任的权利。

给TA打赏
共{{data.count}}人
人已打赏
AI教程

OpenAI Whisper 教程:如何使用 OpenAI Whisper

2023-5-4 20:50:41

AI教程

OpenAI Whisper 教程:在 Docker 容器中创建 OpenAI Whisper API

2023-5-4 20:50:48

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧