1.概述 GPT-SoVITS是一款開源的語音合成模型,結(jié)合了深度學(xué)習(xí)和聲學(xué)技術(shù),能夠?qū)崿F(xiàn)高質(zhì)量的語音生成。其獨(dú)特之處在于支持使用參考音頻進(jìn)行零樣本語音合成,即使沒有直接的訓(xùn)練數(shù)據(jù),模型仍能生成相似風(fēng)格的語音。用戶可以通過微調(diào)模型,進(jìn)一步提升其性能,以適應(yīng)特定的應(yīng)用需求。 2.內(nèi)容 2.1
GPT-SoVITS是一款開源的語音合成模型,結(jié)合了深度學(xué)習(xí)和聲學(xué)技術(shù),能夠?qū)崿F(xiàn)高質(zhì)量的語音生成。其獨(dú)特之處在于支持使用參考音頻進(jìn)行零樣本語音合成,即使沒有直接的訓(xùn)練數(shù)據(jù),模型仍能生成相似風(fēng)格的語音。用戶可以通過微調(diào)模型,進(jìn)一步提升其性能,以適應(yīng)特定的應(yīng)用需求。
這個(gè)開源的文本到語音(TTS)項(xiàng)目可以在Linux、MacOS和Windows系統(tǒng)上運(yùn)行,具有極高的靈活性和兼容性。用戶只需提供一段長達(dá)1分鐘的音頻文件,即可輕松克隆特定的聲音。該項(xiàng)目支持將漢語、英語和日語的文本轉(zhuǎn)換為克隆的語音,為多語言環(huán)境中的應(yīng)用提供了便利。
VITS是一種用于端到端文本到語音(TTS)的模型,結(jié)合了對抗學(xué)習(xí)和條件變分自動編碼器,旨在生成高質(zhì)量的語音效果。近年來,雖然已經(jīng)提出了多種單階段訓(xùn)練和并行采樣的TTS模型,但它們的樣本質(zhì)量往往無法與傳統(tǒng)的兩階段系統(tǒng)相媲美。為了解決這個(gè)問題,VITS采用了一種并行的端到端方法,能夠生成更自然、更真實(shí)的聲音。
該模型通過標(biāo)準(zhǔn)化流和對抗訓(xùn)練過程增強(qiáng)的變分推理,顯著提升了生成建模的表達(dá)能力。此外,VITS引入了隨機(jī)持續(xù)時(shí)間預(yù)測器,能夠從輸入文本中合成出節(jié)奏各異的語音。這種設(shè)計(jì)允許模型捕捉潛在變量的不確定性,形成了一種自然的一對多關(guān)系,使得同一段文本可以以不同的音高和節(jié)奏進(jìn)行多樣化的表達(dá)。這種靈活性和高質(zhì)量的輸出使VITS在語音合成領(lǐng)域中具備了廣泛的應(yīng)用潛力。
Whisper是OpenAI開發(fā)的先進(jìn)自動語音識別(ASR)系統(tǒng),經(jīng)過訓(xùn)練的語料庫包含68萬小時(shí)的多語言(涵蓋98種語言)和多任務(wù)監(jiān)督數(shù)據(jù)。OpenAI認(rèn)為,這種龐大且多樣化的數(shù)據(jù)集顯著提升了系統(tǒng)對各種口音、背景噪音和專業(yè)術(shù)語的識別能力,使其在實(shí)際應(yīng)用中表現(xiàn)出色。
除了語音識別功能,Whisper還支持多種語言的轉(zhuǎn)錄和翻譯,能夠?qū)⒎怯⒄Z語言直接翻譯成英語。這種多功能性使得Whisper不僅適用于語音轉(zhuǎn)文字的任務(wù),還能在國際交流、內(nèi)容創(chuàng)建和教育等領(lǐng)域發(fā)揮重要作用。憑借其出色的準(zhǔn)確性和靈活性,Whisper為用戶提供了一個(gè)強(qiáng)大的工具,有助于打破語言障礙,促進(jìn)溝通與理解。
Whisper的基本原理基于一種Transformer序列到序列模型,旨在處理多種語音任務(wù),包括多語言語音識別、語音翻譯、口語語言識別以及語音活動檢測。通過將這些任務(wù)統(tǒng)一表示為一個(gè)需要解碼器預(yù)測的符號序列,Whisper能夠有效地替代傳統(tǒng)語音處理管道中的多個(gè)階段,簡化了處理流程。
該模型采用多任務(wù)訓(xùn)練的格式,使用一系列特殊符號作為任務(wù)指示符或分類目標(biāo)。這種設(shè)計(jì)不僅提升了模型的靈活性,還使其在處理不同類型的語音輸入時(shí)表現(xiàn)出色。例如,當(dāng)面對多種語言或不同口音時(shí),Whisper能夠利用其訓(xùn)練數(shù)據(jù)中的豐富信息,快速適應(yīng)并提高識別準(zhǔn)確性。通過這種創(chuàng)新的方法,Whisper在語音處理領(lǐng)域展示了強(qiáng)大的能力,能夠滿足多樣化的用戶需求。
Whisper系統(tǒng)提供了五種不同的模型尺寸,以平衡速度和準(zhǔn)確性。每種模型的設(shè)計(jì)旨在滿足不同應(yīng)用場景的需求,用戶可以根據(jù)自己的具體要求選擇合適的模型。以下是可用模型的名稱、對應(yīng)的大致內(nèi)存需求和相對速度:
通過這些不同尺寸的模型,用戶可以根據(jù)自己的硬件資源和應(yīng)用需求,靈活選擇最合適的選項(xiàng),以實(shí)現(xiàn)最佳的語音識別效果。
通過這些配置要求,用戶可以確保系統(tǒng)能夠高效地進(jìn)行訓(xùn)練和推理,以實(shí)現(xiàn)最佳的性能表現(xiàn)。
測試通過的 Python 和 PyTorch 版本:
可以通過如下命令檢測是否已安裝。
可以通過如下命令檢測是否已安裝以及版本要大于等于6.1
如果沒有安裝Git,打開終端執(zhí)行
如果已安裝Git,直接在終端中定位到要存放項(xiàng)目的目錄(此處以桌面為例,請按實(shí)際情況操作,本文檔所有路徑皆基于此前提),然后克隆倉庫到本地,~/代表當(dāng)前用戶目錄下
從 GPT-SoVITS Models 下載預(yù)訓(xùn)練模型,并將它們解壓替換 ~/desktop/GPT-SoVITS/GPT_SoVITS/pretrained_models 。對于 UVR5(人聲/伴奏分離和混響移除)(推薦使用UVR5客戶端,可以跳過這步) 的是UVR5教程從 UVR5 Weights 下載模型,并將它們放置在 ~/GPT-SoVITS/tools/uvr5/uvr5_weights 中。(若使用UVR5客戶端,可以跳過這步)對于中文自動語音識別,從 Damo ASR Model 下載模型,將它們解壓替換 ~/desktop/GPT-SoVITS/tools/asr/models 。
先關(guān)閉終端,再打開終端輸入
遇到y(tǒng)/n的就一直點(diǎn)y回車
如果遇到:connot find conda,那是因?yàn)閏onda沒裝好,輸入
查看有沒有裝好?梢栽囋囍匦麓蜷_終端。
終端輸入
GPT-SoVITS WebUI提供了全面的功能,包括數(shù)據(jù)集制作、模型微調(diào)訓(xùn)練和語音克隆推理。如果您只是想體驗(yàn)效果,可以直接使用官方分享的語音模型。這種設(shè)計(jì)使用戶能夠迅速上手,無需復(fù)雜的設(shè)置或深入的技術(shù)知識。
如果原音頻足夠干凈,比如從游戲中提取的干聲,可以跳過這一步。接著,點(diǎn)擊開啟Open UVR5-WebUI,稍等片刻后,打開瀏覽器訪問 http://localhost:9873。
在切割音頻之前,建議將所有音頻文件導(dǎo)入音頻軟件(如剪映)進(jìn)行音量調(diào)整,將最大音量設(shè)置為-9dB到-6dB,過高的音量應(yīng)予以刪除。
打開WebUI后,首先輸入原音頻的文件夾路徑。接下來,可以調(diào)整以下建議參數(shù):
點(diǎn)擊“開啟語音切割”,切割過程將立即完成,默認(rèn)輸出路徑為 output/slicer_opt。這樣,您就能快速獲得處理后的音頻片段。
打開切分文件夾,將時(shí)長超過“顯存數(shù)”秒的音頻手動切分至該時(shí)長以下。例如,如果顯卡顯存為10GB,建議將超過10秒的音頻切分至10秒以下,或者直接刪除(稍微超出一點(diǎn)的可以不處理)。過長的音頻可能會導(dǎo)致顯存爆滿。
如果經(jīng)過語音切割后仍然是一個(gè)文件,說明音頻過于密集,可以嘗試調(diào)低min_interval參數(shù)以獲得更好的切割效果。這樣可以確保音頻文件在處理時(shí)不會超出顯存限制。
如果原音頻足夠干凈,比如從游戲中提取的干聲,可以跳過這一步。輸入剛才切割完成音頻的文件夾路徑,默認(rèn)為 output/slicer_opt,然后點(diǎn)擊“開啟語音降噪”。處理完成后,降噪后的音頻將默認(rèn)輸出到 output/denoise_opt 目錄。這樣,您就可以輕松獲得清晰的音頻文件。
只需輸入剛才的切分文件夾路徑,如果音頻經(jīng)過降噪處理,默認(rèn)輸出路徑為 output/denoise_opt;如果沒有降噪,則為 output/slicer_opt。
接下來,選擇達(dá)摩ASR或Fast Whisper,然后點(diǎn)擊“開啟離線批量ASR”。默認(rèn)輸出路徑為 output/asr_opt。請注意,這一步可能需要等待一段時(shí)間,因?yàn)橄到y(tǒng)需要下載相應(yīng)的模型。
需要注意的是,由于識別出的文本可能不夠準(zhǔn)確,建議進(jìn)行人工校對標(biāo)注(這一步較耗時(shí)間,如果不追求極致效果可以選擇跳過)。這里我只是為了演示流程,所以此步驟可以略過。
在1-GPT-SOVITS-TTS選項(xiàng)卡中,填寫以下信息:
確保所有路徑和文件名正確無誤,以便順利進(jìn)行后續(xù)操作。
填寫完成后,您可以選擇逐個(gè)點(diǎn)擊下面的三個(gè)按鈕,等待每個(gè)操作執(zhí)行結(jié)束后再點(diǎn)擊下一個(gè)。如果遇到報(bào)錯,請查看后臺日志,有些報(bào)錯只需重試即可解決。
另外,您也可以直接使用“開啟一鍵三連”按鈕,一鍵完成這三步操作,節(jié)省時(shí)間和精力。
選擇 1B-微調(diào)訓(xùn)練 子選項(xiàng)卡,配置 batch_size 等參數(shù)。然后依次點(diǎn)擊 開啟 SoVITS 訓(xùn)練 和 開啟 GPT 訓(xùn)練 。請注意,這兩個(gè)訓(xùn)練任務(wù)不能同時(shí)進(jìn)行(除非您有兩張顯卡)。如果訓(xùn)練過程中中斷,您可以直接再點(diǎn)擊開始訓(xùn)練,系統(tǒng)會從最近的保存點(diǎn)繼續(xù)。
對于 SoVITS 訓(xùn)練,建議將 batch_size 設(shè)置為顯存的一半以下。過高的設(shè)置可能導(dǎo)致顯存爆滿,并不是越高就越快。您需要根據(jù)數(shù)據(jù)集的大小進(jìn)行調(diào)整,而不是嚴(yán)格按照顯存的一半來設(shè)置。如果出現(xiàn)顯存不足的情況,請適當(dāng)降低 batch_size。以下是針對切片長度為10秒時(shí),不同顯存下 SoVITS 訓(xùn)練的最大 batch_size 的實(shí)測值供您參考;如果切片更長或數(shù)據(jù)集更大,則需要適當(dāng)減少。
接下來,設(shè)置訓(xùn)練輪數(shù)。SoVITS 模型的輪數(shù)可以設(shè)置得高一些,因?yàn)橛?xùn)練速度較快。而對于 GPT 模型,通常建議設(shè)置輪數(shù)為10,不要超過20,以確保訓(xùn)練效率和模型性能的平衡。
選擇 1C-推理 子選項(xiàng)卡,配置模型路徑(如果模型沒有顯示出來,可以點(diǎn)擊右側(cè)的按鈕進(jìn)行刷新)。然后,點(diǎn)擊 開啟 TTS 推理 WEBUI 按鈕以打開推理頁面。在推理頁面中,您可以輸入文本并生成語音,體驗(yàn)?zāi)P偷男Ч?
稍等片刻后,打開瀏覽器訪問 http://localhost:9872。
在推理頁面中,第一步選擇所需的模型。第二步上傳參考語音和文本(建議時(shí)長在5秒到10秒之間,參考音頻非常重要,它會影響模型學(xué)習(xí)語速和語氣,請認(rèn)真選擇)。第三步輸入您希望用于語音克隆的文本,準(zhǔn)備開始生成語音。
GPT-SoVITS是一款開源語音合成框架,結(jié)合了生成對抗網(wǎng)絡(luò)和變分推理技術(shù),能夠?qū)崿F(xiàn)高質(zhì)量的文本到語音轉(zhuǎn)換。該框架支持多種功能,包括模型微調(diào)、語音克隆和多語言處理,用戶可以通過友好的Web界面輕松操作。GPT-SoVITS尤其適合于生成自然流暢的語音,廣泛應(yīng)用于游戲、影視配音和語音助手等領(lǐng)域。
這篇博客就和大家分享到這里,如果大家在研究學(xué)習(xí)的過程當(dāng)中有什么問題,可以加群進(jìn)行討論或發(fā)送郵件給我,我會盡我所能為您解答,與君共勉!
另外,博主出新書了《 深入理解Hive 》、同時(shí)已出版的《 Kafka并不難學(xué) 》和《 Hadoop大數(shù)據(jù)挖掘從入門到進(jìn)階實(shí)戰(zhàn) 》也可以和新書配套使用,喜歡的朋友或同學(xué), 可以 在公告欄那里點(diǎn)擊購買鏈接購買博主的書 進(jìn)行學(xué)習(xí),在此感謝大家的支持。關(guān)注下面公眾號,根據(jù)提示,可免費(fèi)獲取書籍的教學(xué)視頻。
機(jī)器學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)構(gòu)建(下)
閱讀華為Mate品牌盛典:HarmonyOS NEXT加持下游戲性能得到充分釋放
閱讀實(shí)現(xiàn)對象集合與DataTable的相互轉(zhuǎn)換
閱讀鴻蒙NEXT元服務(wù):論如何免費(fèi)快速上架作品
閱讀算法與數(shù)據(jù)結(jié)構(gòu) 1 - 模擬
閱讀5. Spring Cloud OpenFeign 聲明式 WebService 客戶端的超詳細(xì)使用
閱讀Java代理模式:靜態(tài)代理和動態(tài)代理的對比分析
閱讀Win11筆記本“自動管理應(yīng)用的顏色”顯示規(guī)則
閱讀本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]
湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)