大模型增強
業(yè)務協(xié)作
行業(yè)解決方案
互聯(lián)網(wǎng) 平臺互聯(lián)網(wǎng) 垂直互聯(lián)網(wǎng)
企業(yè)服務 軟件與信息服務
汽車行業(yè) 汽車行業(yè)
物流快遞 物流快遞
地產(chǎn)家居 房地產(chǎn)行業(yè)
教育 教育行業(yè)
其他 公共事業(yè)服務
原創(chuàng)
2023/02/14 15:50:05
來源:天潤融通
2869
本文摘要
目前常見的智能聲學模型需要開發(fā)者進行專業(yè)訓練,后生成對應的音頻流產(chǎn)品或音頻數(shù)據(jù);對于非聲學模型來說,需要對開發(fā)者提供的原始音頻進行專業(yè)處理,生成相應音效庫。而這些都無法直接應用于智能語音平臺之上;我們需要一個質(zhì)檢系統(tǒng)來幫助開發(fā)者們監(jiān)督及反饋訓練質(zhì)量。
語音識別、語音合成、聲紋識別技術,可以將一個人的聲音轉(zhuǎn)化為另一個人的聲音,將其變成另一個人。而智能語音平臺作為聲音處理的硬件平臺,是智能語音技術落地應用的重要載體。目前常見的智能聲學模型需要開發(fā)者進行專業(yè)訓練,后生成對應的音頻流產(chǎn)品或音頻數(shù)據(jù);對于非聲學模型來說,需要對開發(fā)者提供的原始音頻進行專業(yè)處理,生成相應音效庫。而這些都無法直接應用于智能語音平臺之上;我們需要一個質(zhì)檢系統(tǒng)來幫助開發(fā)者們監(jiān)督及反饋訓練質(zhì)量。
我們推薦使用第三方服務進行質(zhì)檢。對于第三方服務,我們提供了兩種質(zhì)檢方式;一種是直接從錄音文件中提取質(zhì)檢數(shù)據(jù)進行處理,一種是從平臺上傳語音文件到第三方服務進行識別分析。
1、數(shù)據(jù)采集
采集的音頻文件包括了從設備端到服務端的所有音視頻數(shù)據(jù)。
包括:
A、本地設備錄制的音頻文件;
B、云服務器保存的音頻文件;
2、質(zhì)檢分析
質(zhì)檢分析結(jié)果可在質(zhì)檢系統(tǒng)中直接查看,并支持導出數(shù)據(jù)。
通過對聲音進行識別后,系統(tǒng)會根據(jù)用戶上傳的聲音文件,結(jié)合文本檢測技術,對錄音文件的內(nèi)容進行檢測;然后結(jié)合文本檢測技術與文本識別技術形成音頻檢測報告。
該部分報告將詳細介紹音頻文件中各聲學部分的內(nèi)容及缺陷、語音部分的信息等內(nèi)容。
同時可對該音頻文件進行評分,并在后臺統(tǒng)計得出對應評分結(jié)果及其占比,從而提供相應的反饋及建議。
另外還可以提供針對某一特定領域產(chǎn)品訓練時用到的特征詞、特征詞組、特定領域等關鍵詞進行相關統(tǒng)計分析和可視化輸出,方便開發(fā)者更好地理解模型訓練結(jié)果及提高訓練效果。
3、結(jié)果輸出
輸出結(jié)果包含三種:
標準輸出:可供開發(fā)者進行訓練時使用,例如測試數(shù)據(jù)或檢測結(jié)果等;
標準輸出:供產(chǎn)品提供方進行分析時使用,例如根據(jù)聲音參數(shù)、聲壓級等進行相關參數(shù)的優(yōu)化等。
4、平臺管理
管理服務:
包括對系統(tǒng)的維護,修改及刪除等;
包括對設備的監(jiān)控和故障診斷的功能;
支持對系統(tǒng)中的所有功能進行監(jiān)控。
管理方式:平臺端管理方式,可使用“管理工具”或“軟件”等進行添加、刪除及修改服務列表;
5、其他功能
支持離線使用,可遠程調(diào)用離線語音識別功能;
專屬1v1客服
為您提供最全面的咨詢服務
掃碼立即咨詢