什麼是語音轉文本軟件 - 2022 年初學者指南

已發表: 2022-04-25

Speech-to-text 軟件自稱是轉錄服務的一站式商店,提供您一直在尋找的低成本、易於使用、準確且快速的轉錄本。 然而,它是否像 hoopla 所暗示的那樣好? 究竟什麼是語音轉文本軟件?

簡而言之,語音到文本軟件,也稱為自動語音識別 (ASR) 軟件或語音到文本軟件,是一種計算機程序,它使用語言算法對聽覺數據進行分類並使用 Unicode 字符將它們轉換為單詞。

簡而言之,語音轉文本軟件“聆聽”音頻並生成可編輯的逐字記錄。

在互聯網上,有大量的自動轉錄服務提供商。 大多數提供引人注目的價格點,任何熟悉人工轉錄服務的人都會覺得很有吸引力——平均每分鐘錄製的音頻約為 0.10 英鎊,有些甚至是免費的。

大多數人聲稱准確率在 90% 到 95% 之間。 這僅適用於“乾淨”的錄音,在選擇 ASR 軟件是否可以滿足您的轉錄需求之前了解這一點至關重要。

在您過於興奮並放棄您的轉錄預算以支持語音轉文本軟件之前,最好複習一下您對該技術的了解。 以下是有關語音轉文本軟件的事實概要,以及它與傳統人工轉錄服務的比較。

語音轉文本軟件如何工作?

將語音轉化為文本的過程需要幾個過程。 當你說話時,你會發出一系列的振動。 模數轉換器或 ADC 將這些轉換為數字語言。

通過從音頻文件中採樣聲音並對波形進行定期、非常詳細的測量,ADC 能夠完成這種轉換。 系統中的濾波器可區分顯著噪聲並區分頻率。 說話速度也被調整,響度被設置為預設水平。

然後將信號分割成百分之一或千分之一秒,這些片段與音素相匹配(音素是一種聲音單位,用於區分特定語言中的一個詞與另一個詞)。 英語包含 40 多個音素。 然後結合附近的其他音素對每個音素進行調查和評估,並且系統使用複雜的數學模型將音素網絡與眾所周知的句子、特定單詞和短語進行比較。 然後,系統會根據該人最有可能說的話,使用自然語言處理生成文本。 這可以是一段文本(文本文件)或最終計算機指令的形式。

ASR/語音轉文本軟件的好、壞和醜

從表面上看,ASR 似乎是一個絕妙的解決方案。 但是,如果您再深入一點,您會發現存在一定的困難,尤其是在某些類型的錄音方面。 在將 ASR 與基於人工的轉錄服務進行比較時,重要的是要考慮優點、缺點和醜陋。

語音轉文本軟件的好處

ASR 最大的好處是它的快速和低成本。 自動語音識別 (ASR) 提供快速結果,在某些情況下,甚至可以提供實時服務。 隨之而來的成本同樣比人工服務便宜得多。

有些公司按分鐘收費。 其他人有固定的每月價格。 對於收費程序,您通常每月只能上傳一定數量的內容。 無論您的收費方式如何,您都應該預計每分鐘音頻花費大約 0.07 英鎊到 0.10 英鎊用於自動轉錄服務。

另一方面,一些服務是完全免費的。 如果您為轉錄軟件訪問付費,您更有可能獲得明顯更好的結果。 但首先,讓我們看一下語音轉文本軟件的一些問題。

語音轉文本軟件的缺點

自動語音識別技術僅產生逐字文本的能力是其主要缺點之一。 在沒有人的情況下,系統只能轉錄已經存在的內容。 因此,您可能會得到一份難以閱讀的成績單。

猶豫不決、發出“erm”之類的聲音以及在說話時因特定單詞而絆倒是很常見的。 磁帶上的所有內容都將包含在逐字文本中。 人工服務可以整理並提供更易於理解的成績單,同時保留所有原始錄音的細節和準確性。

語音轉文本軟件的醜陋一面

ASR 的準確性是最受關注的部分。 即使是最出色的語音轉文本軟件也很少能達到 80% 以上的準確率,這意味著您必須花費時間和精力來糾正和改進您的工作。

如果存在“複雜”元素,ASR 會產生無意義的結果。 您需要“乾淨”的錄音才能從語音到文本服務接收可通過的成績單。 這意味著對人們仔細說話的高質量錄音,一次一個,沒有口音,背景噪音最小。

ASR 也可能難以理解專業語言或識別品牌名稱和行業術語。 為防止此類問題,大多數人工轉錄服務將允許您提供詞彙表或將您與具有相關領域知識的轉錄員聯繫起來。 隨著時間的推移,可以針對特定領域或主題訓練 ASR 軟件,但這需要付出努力,而且不太可能是開箱即用的。

ASR 與人工輔助轉錄服務的比較

語音轉文本技術和基於人工的轉錄服務有一些重要的區別。

成本

對於許多人來說,價格是一個主要考慮因素,人工轉錄服務比 ASR 貴得多。 一些 ASR 服務是免費的,而大多數收費在每分鐘 0.10 英鎊到 0.20 英鎊之間。 另一方面,人性化服務通常每分鐘收費 2 英鎊左右。 對於較長的周轉期,可能會降低定價。 即使您可以等待一周的成績單,基於人工的服務也將比語音轉文本軟件更昂貴。

時間

與 ASR 相比,人工服務的運行時間要長得多。 人工服務的周轉時間通常為 12-24 小時,其中許多提供交貨時間保證。 ASR 的速度要快得多,只需幾秒鐘即可生成轉錄本。 如果您需要立即進行人工轉錄,您幾乎肯定會被收取更多費用。

多功能性和選項

使用 ASR 獲得逐字記錄的唯一方法是語音識別軟件在準確性方面是否能夠勝任任務。 以人為本的服務提供了更廣泛的可能性,例如逐字記錄和詳細說明。 大多數基於人工的轉錄服務的逐字記錄選項仍將刪除錯誤、減少停頓以及“嗯”和“錯誤”,從而使版本更易於閱讀(除非您要求保留所有細節)。 詳細說明通過提供更簡潔的成績單更進一步。 這可能涉及總結查詢並刪除離題的閒聊和客套話。

質量和信心

當您使用基於人工的轉錄服務時,您可以確保結果質量更高。 人工服務具有質量控制保證,通常提供 99% 或更高的準確率,但完全無法辨認的音頻除外。

成績單將為您校對,因此您不必花時間驗證文本或自己進行更改。 如果您使用 ASR,您可能會發現您必須花費大量時間在文本中搜索錯誤、糾正亂碼文本以及刪除單詞和不受歡迎的噪音。

摘要:Speech to Text 是一種經濟高效的解決方案

對於需要快速轉錄服務的個人來說,語音轉文本軟件是一種經濟高效的選擇。

因為 ASR 非常便宜,而且通常甚至是免費的,所以值得嘗試看看您可以獲得什麼類型的結果。 您可以通過嘗試不同的替代方案來確定需要什麼樣的音質才能創建可理解的結果。

您必須投資製作高質量的錄音,以使用 ASR 製作高質量的轉錄。 但是,如果您想要多種選擇、準確的轉錄以及對細節的無與倫比的關注,您將需要投資基於人工的服務。