AI快讯 | OpenAI-Whisper - OpenAI 开源的语音识别系统

当前位置：首页 > 人工智能

OpenAI-Whisper - OpenAI 开源的语音识别系统

来源：新闻资讯-开源中国发布日期：2024-03-18

OpenAI-Whisper 正在参加 2021 年度 OSC 中国开源项目评选，请投票支持！

0">OpenAI-Whisper 在 2021 年度 OSC 中国开源项目评选中已获得 {{ projectVoteCount }} 票，请投票支持！

2021 年度 OSC 中国开源项目评选正在火热进行中，快来投票支持你喜欢的开源项目！

2021 年度 OSC 中国开源项目评选 >>> 中场回顾

Whisper 是 OpenAI 开源的自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。

我们使用 Python 3.9.9 和 PyTorch 1.10.1 来训练和测试我们的模型，但代码库预计将与 Python 3.7 或更高版本以及最新的 PyTorch 版本兼容。代码库还依赖于一些 Python 包，以下命令将从该存储库中提取并安装最新提交及其 Python 依赖项

pip install git+https://github.com/openai/whisper.git

它还需要在你的系统上安装命令行工具 ffmpeg，大多数包管理器都可以使用：

# on Ubuntu or Debian

sudo apt update && sudo apt install ffmpeg

# on MacOS using Homebrew (https://brew.sh/)

brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)

choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)

scoop install ffmpeg

目前 Whisper 有 9 种模型（分为纯英文和多语言），其中四种只有英文版本，开发者可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

给软件打分：

= 1}" @click="clickScore(1)" @mouseenter="hoverScore(1)" @mouseleave="blurScore">

= 2}" @click="clickScore(2)" @mouseenter="hoverScore(2)" @mouseleave="blurScore">

= 3}" @click="clickScore(3)" @mouseenter="hoverScore(3)" @mouseleave="blurScore">

= 4}" @click="clickScore(4)" @mouseenter="hoverScore(4)" @mouseleave="blurScore">

= 5}" @click="clickScore(5)" @mouseenter="hoverScore(5)" @mouseleave="blurScore">

拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音...

你们这些人！什么删代码！什么收费！心胸要宽广懂不懂！眼光要长远知不知道！层次要拔高明不明白！好了，这软件突然不能用？我咋知道？我离职了！要我修改bug？可以！我业余时间给你改改可以的！不过你这占用了我个人时间，我1小时300块钱，很便宜的！看在都是老东家的份上，200/小时吧！

专属邀请文案：

你的软件 “OpenAI-Whisper” 被开源中国社区收录啦，快点击 https://www.oschina.net/p/openai-whisper 认证为软件作者吧！

复制邀请文案

free-nlp-api多模态 NLP 自然语言处理引擎

思通数科利用自然语言处理技术，让计算机具备对网页、文件、文本、声音、图像的阅读能力，帮助客户自动化处理海量文本数据，打造一系列NLP技术工具集或场景化方案，提升文字处理效率和文本挖掘深度，降低人...

Dataherald用自然语言查询结构化数据库

Dataherald 是一种自然语言到 SQL 的引擎，专为针对结构化数据进行企业级问答而构建。它允许你从数据库中设置一个 API，可以用简单的英语回答问题。你可以使用 Dataherald 来...

MetaGPT多智能体元编程框架

多智能体框架 MetaGPT 可以使 GPT 以软件公司的形式工作，协作处理更复杂的任务。介绍多智能体框架 MetaGPT 开源了：https://github.com/geekan/Me...

SolidUIAI 生成可视化

SolidUI 是一个创新的项目，旨在将自然语言处理（NLP）与计算机图形学相结合，实现文生图功能。这是什么？随着文本生成图像的语言模型兴起，SolidUI想帮人们快速构建可视化工具，可视化...

MKQA多语言知识问答数据集

MKQA 全称 Multilingual Knowledge Questions & Answers ，是一个开放域问答评估集，包含 10k 个问答对，跨越 26 种不同类型的语言（总共 260...

7 * 24 快讯

元宇宙

热门商品

OpenAI-Whisper - OpenAI 开源的语音识别系统

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

OpenAI-Whisper - OpenAI 开源的语音识别系统

百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式

湘江新区 "" 校企对接启动智能制造汇聚湘江，科技创新引领未来。6月30日上午，以“智汇湘江科创未来”为主题的湖南湘江新区科研成果校企对接系列活动之启动式暨湖南大学智能制造专场活动上...

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

元宇宙时代的HTTP应该是什么样？

腾讯注册“QQ元宇宙”商标，到底什么叫元宇

宝鸡市宝元宇宙展示体验馆开放公告

首届全国元宇宙短视频大赛参赛作品网络投票公告

央视发现之旅频道将于10月28日22时播出《纪录东方之数字宝鸡布局元宇宙...

OpenAI-Whisper - OpenAI 开源的语音识别系统

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

OpenAI-Whisper - OpenAI 开源的语音识别系统

百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式

湘江新区 "" 校企对接启动智能制造汇聚湘江，科技创新引领未来。6月30日上午，以“智汇湘江 科创未来”为主题的湖南湘江新区科研成果校企对接系列活动之启动式暨湖南大学智能制造专场活动上...

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

元宇宙时代的HTTP应该是什么样？

腾讯注册“QQ元宇宙”商标，到底什么叫元宇

宝鸡市宝元宇宙展示体验馆开放公告

首届全国元宇宙短视频大赛参赛作品网络投票公告

央视发现之旅频道将于10月28日22时播出《纪录东方之数字宝鸡 布局元宇宙...

湘江新区 "" 校企对接启动智能制造汇聚湘江，科技创新引领未来。6月30日上午，以“智汇湘江科创未来”为主题的湖南湘江新区科研成果校企对接系列活动之启动式暨湖南大学智能制造专场活动上...

央视发现之旅频道将于10月28日22时播出《纪录东方之数字宝鸡布局元宇宙...