首页 人工智能元宇宙大数据 企业智能化 智慧城市 科技 商务
当前位置:首页 > 人工智能

OpenAI-Whisper - OpenAI 开源的语音识别系统

来源:新闻资讯-开源中国 发布日期:2024-03-18

OpenAI-Whisper 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!

0">OpenAI-Whisper 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!

2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!

2021 年度 OSC 中国开源项目评选 >>> 中场回顾

Whisper 是 OpenAI 开源的自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。

我们使用 Python 3.9.9 和 PyTorch 1.10.1 来训练和测试我们的模型,但代码库预计将与 Python 3.7 或更高版本以及最新的 PyTorch 版本兼容。 代码库还依赖于一些 Python 包,以下命令将从该存储库中提取并安装最新提交及其 Python 依赖项

pip install git+https://github.com/openai/whisper.git

它还需要在你的系统上安装命令行工具 ffmpeg,大多数包管理器都可以使用:

# on Ubuntu or Debian

sudo apt update && sudo apt install ffmpeg

# on MacOS using Homebrew (https://brew.sh/)

brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)

choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)

scoop install ffmpeg

目前 Whisper 有 9 种模型(分为纯英文和多语言),其中四种只有英文版本,开发者可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:

给软件打分:

= 1}" @click="clickScore(1)" @mouseenter="hoverScore(1)" @mouseleave="blurScore">

= 2}" @click="clickScore(2)" @mouseenter="hoverScore(2)" @mouseleave="blurScore">

= 3}" @click="clickScore(3)" @mouseenter="hoverScore(3)" @mouseleave="blurScore">

= 4}" @click="clickScore(4)" @mouseenter="hoverScore(4)" @mouseleave="blurScore">

= 5}" @click="clickScore(5)" @mouseenter="hoverScore(5)" @mouseleave="blurScore">

拥有 GTP-3 语言模型,并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统,Open AI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音...

{{parseInt(o.replyCount) | bigNumberTransform}}

{{parseInt(o.viewCount) | bigNumberTransform}}

{{parseInt(o.replyCount) | bigNumberTransform}}

{{parseInt(o.viewCount) | bigNumberTransform}}

你们这些人!什么删代码!什么收费!心胸要宽广懂不懂!眼光要长远知不知道!层次要拔高明不明白!好了,这软件突然不能用?我咋知道?我离职了!要我修改bug?可以!我业余时间给你改改可以的!不过你这占用了我个人时间,我1小时300块钱,很便宜的!看在都是老东家的份上,200/小时吧!

专属邀请文案:

你的软件 “OpenAI-Whisper” 被开源中国社区收录啦,快点击 https://www.oschina.net/p/openai-whisper 认证为软件作者吧!

复制邀请文案

free-nlp-api多模态 NLP 自然语言处理引擎

思通数科利用自然语言处理技术,让计算机具备对网页、文件、文本、声音、图像的阅读能力,帮助客户自动化处理海量文本数据,打造一系列NLP技术工具集或场景化方案,提升文字处理效率和文本挖掘深度,降低人...

Dataherald用自然语言查询结构化数据库

Dataherald 是一种自然语言到 SQL 的引擎,专为针对结构化数据进行企业级问答而构建。它允许你从数据库中设置一个 API,可以用简单的英语回答问题。你可以使用 Dataherald 来...

MetaGPT多智能体元编程框架

多智能体框架 MetaGPT 可以使 GPT 以软件公司的形式工作,协作处理更复杂的任务 。 介绍 多智能体框架 MetaGPT 开源了:https://github.com/geekan/Me...

SolidUIAI 生成可视化

SolidUI 是一个创新的项目,旨在将自然语言处理(NLP)与计算机图形学相结合,实现文生图功能。 这是什么? 随着文本生成图像的语言模型兴起,SolidUI想帮人们快速构建可视化工具,可视化...

MKQA多语言知识问答数据集

MKQA 全称 Multilingual Knowledge Questions & Answers ,是一个开放域问答评估集,包含 10k 个问答对,跨越 26 种不同类型的语言(总共 260...

7 * 24 快讯