ai好好玩-3 讓你可以用更輕鬆的方式語音轉文字的工具 buzz

ai好好玩-3 讓你可以用更輕鬆的方式語音轉文字的工具 buzz

在上一篇文章中,我介紹了如何使用Anaconda的命令行搭配whisper來將語音轉文字,
但對於很多人來說,命令行的操作模式難度較高,使用也不是特別方便,
正好有網友看完我的文章,給我介紹了另一個也是使用whisper模型,並且有軟體介面可以直接操作的版本,
這個版本將會更加方便簡單,但卻有一些小缺點,
話不多說,馬上開始!

Anaconda、buzz跟whisper是什麼關係,我搞糊塗了

在上一篇文章,我介紹的是用Anaconda來調用whisper,
而這篇又出現了名為buzz的工具,你是不是已經搞不清楚他們誰是誰了呢?
那就讓我幫你梳理一下吧

  1. 首先,whisper跟buzz都是github平台上的開源項目
  2. whisper是語音轉文字的AI組件
  3. 想使用whisper有很多種方式,一種是用
    Anaconda
    這個軟體包管理器來安裝whisper,並在命令行中,用手打指令的方式調用whisper來將語音轉文字,
    另一種方式,就是使用本篇要介紹的工具
    buzz
    它已經被github上的大神包成了一個安裝包,按照平常安裝軟體的方式安裝完,打開就能用,
    且buzz不用打指令,它已經把幾乎所有的功能做到了軟體介面中,可操作的按鈕和選單。

在Anaconda中使用whisper,跟直接使用buzz工具的差異

有了buzz這個工具,是不是就不必再用Anaconda來調用whisper來語音轉文字了呢?
答案是,我仍然還是喜歡用Anaconda來轉文字,
或許在未來,buzz這個工具不斷完善後,我才會考慮拋棄用Anaconda,轉而用buzz來轉文字,
那麼,就讓我告訴你這兩者到底有何差異吧!

  1. Anaconda命令行使用whisper的優點
    • 轉換出的txt檔案會按照識別的狀況換行,閱讀較為方便
    • 一條指令即可更新whisper組件
    • 可以使用專用於識別英文的模型,對於英文的識別正確率會更高
    • 可以在部屬系統環境的時候安裝用獨顯加速的組件
  2. Anaconda使用whisper的缺點
    • 轉換速度較buzz慢
    • 需要用Anaconda自己打指令,且中文名檔案可能需要修改檔名成英文或數字,才較為方便打指令
    • 第一次使用時需要自己部屬環境,且大陸地區可能存在無法下載相關組件,必須使用vpn來下載的問題
  3. 使用buzz的優點
    • 轉換速度比Anaconda處理得快,原因還在探索中
    • 不需自己部屬系統環境,安裝之後打開就能用
    • 軟體介面操作簡單,無障礙也不錯
    • 可以批量處理大量檔案,並且可以直接選擇有中文名的檔案
    • 之前轉換過的檔案會顯示在列表裡,並且也能瀏覽識別結果
  4. buzz的缺點
    • 轉換出的txt檔常會把很多句話放在同一行,不會自動換行,閱讀十分不便,這點非常扣分
    • 除了最大的模型,其餘四種模型的識別正確率會略低於Anaconda識別出的結果
    • 沒有線上更新功能,有新版本需要到github上重新下載,而且也要buzz的擁有者有跟著whisper的最新動向來更新才行
    • 不確定buzz能不能自動判斷,當有獨顯的時候使用獨顯來加速
    • 在軟體介面中的模型選單中沒有英文專用模型,不確定是否語言選擇英文就會直接使用英文專用模型
  5. 結論
    如果你特別怕麻煩,想最輕鬆的使用whisper的語音轉文字功能,而且你趕時間,用buzz工具是最方便的選擇,
    如果你想用到最新的組件,也不害怕命令行操作,並且想有最好的識別結果,你可以用Anaconda來調用whisper,
    要特別注意的是,如果你的用途是為了轉換出字幕檔,那用buzz跟用Anaconda的效果是差不多的,
    但如果你只是想閱讀純文字,我會推薦你繼續用Anaconda的命令行版本

下載和github頁面

大陸地區可以下載buzz和模型包,這樣就能直接使用了,不用再連網下載模型,
gaga下載站的載點需要右鍵選另存,並在瀏覽器中選擇保存才能順利下載。

  1. 下載buzz
    點我下載buzz v0.7.1 小羔羊下載站
    點我下載buzz v0.7.1 gaga下載站
  2. 下載whisper模型
    點我下載whisper大模型 gaga下載站
    點我下載whisper四個模型,包括(微小、基礎、小、中)
  3. buzz的github頁面
    點我前往buzz的github頁面

安裝

  1. 下載buzz,並直接打開安裝包,
    在buzz的安裝視窗裡,tab找到這個勾選框,並按空格將其打勾
    Create a &desktop shortcut 核取方塊
  2. 打勾之後,按照步驟一路next、install、finish,就完成安裝buzz了。
  3. 下載whisper模型包,
    p.s 如果你身在大陸地區,推薦你從下面的載點直接下載模型包,會比你透過buzz線上下載模型包快
  4. 打開下載好的模型包,點安裝即可,
    這是我製作的自解壓縮包,它會將whisper模型放到這個路徑→
    C:\Users\Administrator.cache\whisper
    另外,如果你之前就已經使用過Anaconda調用whisper,它的模型也是放在這個位置,
    因此,無論你使用buzz還是Anaconda來調用whisper,它們用的模型都是同一個,也放在同個路徑下,
    如果你使用的是Anaconda來調用whisper,也可以下載上面的模型直接用
  5. 到此就可以打開buzz開始用了

使用

  1. 打開桌面上的
    buzz
  2. 加載要處理的檔案
    按alt往下,找
    Import Media File... Ctrl+O
    按enter,
    或是直接在buzz的視窗中,按
    ctrl+o
    都會打開選擇檔案的對話框,在這裡找你要處理的檔案按enter
  3. 接著軟體畫面會讓你選擇相關參數,你需要注意的只有這四個選項
    • Task: 下拉式方塊 Transcribe 折疊 Down
      這個是切換要不要翻譯的選項,如果要翻譯的話就選
      Translate
      識別出來的結果就會自動翻譯成英文,目前無法翻譯成其他語言
    • Language: 下拉式方塊 Detect Language 折疊 Down
      在這裡選擇語言,預設會自動偵測語言,但只會偵測檔案的前30秒,
      為了避免有些檔案前面沒有說話的聲音,建議選擇指定語言,例如選擇中文
      Chinese
      下拉式方塊 Tiny 折疊 Down
      這裡用來選擇模型,
      Tiny處理速度最快,但效果最差,
      而Large速度最慢,但效果最好,
      要特別注意的是,使用越大的模型需要占用的硬體資源越多,
      如果你想使用大模型,最好要有16g以上的ram(記憶體),根據官方github頁面,
      大模型會需要10g的ram,中模型會需要5g的ram,小模型會需要2g的ram,基礎和微小只需1g的ram,
    • Run 按鈕 Enter
      當上面兩個選項都選好之後,找到這個按鈕開心的按enter,就會開始處理了
  4. 接下來,軟體又會回到主介面,上下左右動一動,你可以聽到剛剛加載的檔名和處理進度,
    主介面主要分成兩個部分,左邊顯示檔名,右邊顯示處理狀態,
    你可以先按左,上下瀏覽所有已經加載的檔案,
    往右就能看到這個檔案的處理狀態,例如還在處理時會顯示
    In Progress (95%) 資料項目
    處理完會顯示
    Completed 資料項目
  5. 要保存結果,你需要先找到左邊的檔案,例如我找到
    123.mp3 資料項目
    然後使用滑鼠來點兩下
    • nvda的用戶,按nvda+小鍵盤斜線,將滑鼠移動過去,接著點兩下小鍵盤斜線
    • 爭渡讀屏的用戶,按小鍵盤0+小鍵盤減號,然後點兩下小鍵盤斜線
  6. tab找到
    Export 按鈕
    按空格
  7. tab可以看到有三種格式,找到你要的格式按enter
    • TXT 純文字
    • SRT 常用的影片字幕檔格式
    • VTT 瀏覽器的字幕檔格式
  8. 在彈出的對話框中選擇保存位置並保存,之後就能找到轉換出的檔案看看成果了。
    通常我會選擇txt或srt格式,
    srt是影片的字幕檔格式,只要把影片字幕檔跟影片放在同一目錄,兩者檔名相同,就能用
    poplayer
    來一邊看影片,一邊聽字幕了,
    關於poplayer如何讓nvda或爭渡讀屏能念字幕檔中的字幕,會在未來的文章中介紹

其他功能

還有一些其他功能,除了能用ocr直接找到這些功能外,也能用nvda的對象瀏覽找到。

  1. 在buzz視窗裡按兩下alt,讓軟體畫面捲動到最上面
  2. 按nvda+小鍵盤8,跳到視窗最上面
  3. 按nvda+小鍵盤2,往下一層
  4. 按nvda+小鍵盤4,找到
    工具列
    之後按nvda+小鍵盤2,再往下一層,進入工具列
  5. 再來按nvda+小鍵盤4、6,就能看到這四個選項,
    如果要點選,就用上面介紹過的方式,將滑鼠移動過來並點兩下左鍵
    • Record 按鈕 錄音直接轉文字
      錄音,可以直接設定語言、模型,並直接錄音你麥克風輸入的聲音轉文字
    • New Transcription 按鈕 打開要識別的檔案
      就跟我們一開始打開檔案一樣,點選後一樣是打開選擇檔案的對話框
    • Open Transcript 按鈕 打開識別結果
      會打開你最後所選檔案的結果,就跟我們在列表裡,找到檔案點兩下左鍵一樣
    • Clear History 按鈕 清除歷史
      點選後會將列表及識別結果清空

ok! 這次就介紹到這裡,我們下篇再見,玩得愉快!