OpenAI-Whisper - OpenAI 开源的语音识别系统
来源:新闻资讯-开源中国 发布日期:2024-03-18
OpenAI-Whisper 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
0">OpenAI-Whisper 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Whisper 是 OpenAI 开源的自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。
我们使用 Python 3.9.9 和 PyTorch 1.10.1 来训练和测试我们的模型,但代码库预计将与 Python 3.7 或更高版本以及最新的 PyTorch 版本兼容。 代码库还依赖于一些 Python 包,以下命令将从该存储库中提取并安装最新提交及其 Python 依赖项
pip install git+https://github.com/openai/whisper.git
它还需要在你的系统上安装命令行工具 ffmpeg,大多数包管理器都可以使用:
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
目前 Whisper 有 9 种模型(分为纯英文和多语言),其中四种只有英文版本,开发者可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:
给软件打分:
= 1}" @click="clickScore(1)" @mouseenter="hoverScore(1)" @mouseleave="blurScore">
= 2}" @click="clickScore(2)" @mouseenter="hoverScore(2)" @mouseleave="blurScore">
= 3}" @click="clickScore(3)" @mouseenter="hoverScore(3)" @mouseleave="blurScore">
= 4}" @click="clickScore(4)" @mouseenter="hoverScore(4)" @mouseleave="blurScore">
= 5}" @click="clickScore(5)" @mouseenter="hoverScore(5)" @mouseleave="blurScore">
拥有 GTP-3 语言模型,并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统,Open AI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音...
{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
你们这些人!什么删代码!什么收费!心胸要宽广懂不懂!眼光要长远知不知道!层次要拔高明不明白!好了,这软件突然不能用?我咋知道?我离职了!要我修改bug?可以!我业余时间给你改改可以的!不过你这占用了我个人时间,我1小时300块钱,很便宜的!看在都是老东家的份上,200/小时吧!
专属邀请文案:
你的软件 “OpenAI-Whisper” 被开源中国社区收录啦,快点击 https://www.oschina.net/p/openai-whisper 认证为软件作者吧!
复制邀请文案
free-nlp-api多模态 NLP 自然语言处理引擎
思通数科利用自然语言处理技术,让计算机具备对网页、文件、文本、声音、图像的阅读能力,帮助客户自动化处理海量文本数据,打造一系列NLP技术工具集或场景化方案,提升文字处理效率和文本挖掘深度,降低人...
Dataherald用自然语言查询结构化数据库
Dataherald 是一种自然语言到 SQL 的引擎,专为针对结构化数据进行企业级问答而构建。它允许你从数据库中设置一个 API,可以用简单的英语回答问题。你可以使用 Dataherald 来...
MetaGPT多智能体元编程框架
多智能体框架 MetaGPT 可以使 GPT 以软件公司的形式工作,协作处理更复杂的任务 。 介绍 多智能体框架 MetaGPT 开源了:https://github.com/geekan/Me...
SolidUIAI 生成可视化
SolidUI 是一个创新的项目,旨在将自然语言处理(NLP)与计算机图形学相结合,实现文生图功能。 这是什么? 随着文本生成图像的语言模型兴起,SolidUI想帮人们快速构建可视化工具,可视化...
MKQA多语言知识问答数据集
MKQA 全称 Multilingual Knowledge Questions & Answers ,是一个开放域问答评估集,包含 10k 个问答对,跨越 26 种不同类型的语言(总共 260...
-
元宇宙与数字藏品的联系
-
疫情时代,元宇宙旅游
-
妈祖文化|推进妈祖元宇宙建设!这份协议签了
-
金融元宇宙赋能实体经济-赵永新教授演讲
-
中国正在加速进入元宇宙时代,预计2023年将会有大发展
-
OpenAI-Whisper - OpenAI 开源的语音识别系统
-
百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式
-
长沙职业技术学院、湖南科瑞特科技有限公司—长沙市人工智能产业技术研究院合作协议签约仪式2018年11月5日,长沙职业技术学院、湖南科瑞特科技有限公司在长沙高新区正式举行签约仪式,双方就共建长沙市人工智能产业技术研究院达成合作协议并签约。
-
2019年湖南科瑞特科技有限公司教育部产学合作协同育人项目申报指南教育部产学合作协同育人项目(2019年第二批)正式发布,湖南科瑞特科技有限公司拟在“电子信息”、“物联网”、“智能硬件”、“无人机”、“工业机器人与智能制造”、“人工智能”等...
-
湖南机电职业技术学院携手湖南科瑞特科技股份有限公司合作开展工业机器人专业学徒制人才培养2016新年伊始,湖南机电职业技术学院与湖南科瑞特科技股份有限公司合作开展工业机器人 专业学徒制人才培养,开启校企合作新篇章。
-
湘江新区 "" 校企对接启动智能制造汇聚湘江,科技创新引领未来。6月30日上午,以“智汇湘江 科创未来”为主题的湖南湘江新区科研成果校企对接系列活动之启动式暨湖南大学智能制造专场活动上...
-
长沙职业技术学院、湖南科瑞特科技有限公司—长沙市人工智能产业技术研究院合作协议签约仪式2018年11月5日,长沙职业技术学院、湖南科瑞特科技有限公司在长沙高新区正式举行签约仪式,双方就共建长沙市人工智能产业技术研究院达成合作协议并签约。