🎤

音声文字起こし

マイクで録音した音声をAIがテキストに変換。Whisperモデルを使用。

ブラウザ内で完結 — データ送信なし🟢 📦 約40MB🤖 Moonshine-tiny⚖️ MIT

Whisperモデルとは

🤖

OpenAI Whisper

OpenAIが公開した汎用音声認識モデル。68万時間の多言語音声データで学習済み。日本語を含む99以上の言語に対応し、文字起こし・翻訳の両方が可能。

🌐

ブラウザ内推論

Transformers.jsとONNX Runtimeにより、音声データをサーバーに送信せずブラウザ内で完結。プライバシーに敏感な音声データも安全に処理できます。

📊

モデルサイズと精度

本デモではWhisper Tiny（約150MB）を使用。高速だが精度は限定的。サーバー環境ではSmall/Medium/Largeモデルでさらに高精度な認識が可能。

🔤

対応言語

日本語・英語・中国語・韓国語・フランス語・ドイツ語・スペイン語など99言語以上。多言語混在の音声も自動で言語検出して文字起こし。

Whisperモデルサイズ比較

モデル	パラメータ数	モデルサイズ	日本語WER	用途
Tiny（本デモ）	39M	約150MB	約30〜40%	ブラウザ・エッジ向け
Base	74M	約290MB	約25〜35%	軽量サーバー
Small	244M	約950MB	約15〜25%	バランス型
Medium	769M	約3GB	約10〜18%	高精度
Large-v3	1.55B	約6GB	約6〜12%	最高精度（GPU推奨）

※ WER（Word Error Rate）は認識誤り率。値が低いほど高精度。日本語ではCER（Character Error Rate）が使われることもあり、上記はWER/CER混在の目安値。数値はCommon Voice等の公開ベンチマークに基づく。

音声認識AIの活用事例

🏥

医療カルテ音声入力

診察中の会話を自動テキスト化。電子カルテへの入力時間を大幅削減し、医師が患者と向き合う時間を増やす。

📝

議事録・会議記録

会議の音声をリアルタイムでテキスト化。発話者識別と組み合わせて、自動で議事録を生成。

🎓

教育・講義字幕

授業や講演の音声をリアルタイム字幕化。聴覚障害者のアクセシビリティ向上やオンライン学習に活用。

📞

コールセンター分析

顧客との通話内容を自動文字起こしし、感情分析・キーワード抽出で応対品質を可視化。

🎬

動画字幕生成

YouTube・SNS動画に自動で字幕を付与。多言語翻訳と組み合わせてグローバル配信に対応。

🏭

現場作業ハンズフリー記録

製造・建設現場で手が使えない状況でも音声で作業記録を入力。ウェアラブルデバイスと連携。

音声認識の精度を上げるコツ

🎙️

マイクとの距離

マイクから20〜50cmの距離が最適。遠すぎると背景ノイズが増え、近すぎるとポップノイズが発生します。

🔇

静かな環境

BGMやエアコン音など定常ノイズを減らすことで認識精度が大幅に向上。ノイズキャンセリングマイクも有効。

🗣️

はっきりした発話

早口や小声は認識精度が低下します。一定のペースで明瞭に話すことが重要。句読点の間を意識的に空けると良い結果に。

⏱️

適切な録音長

Whisper Tinyは30秒までの音声チャンクで処理。長時間の音声は分割して処理することで精度を維持できます。

🌐

言語の指定

本デモでは日本語を指定していますが、英語の方が認識精度が高くなります。言語を明示することで自動検出のミスを防げます。

📱

大きなモデルを使う

ブラウザ版はTinyモデルのため精度に限界があります。業務用途ではLarge-v3モデルをサーバーで実行することで飛躍的に精度向上。

独自の音声認識システムを構築する

専門用語（医療・法律・製造業など）や方言・アクセントへの対応が必要な場合、Whisperのファインチューニングが有効です。

音声＋テキストペアデータ収集

対象ドメインの音声と正確な書き起こしテキストのペアを作成。最低100〜500時間の音声データが推奨。少量でもLoRA学習で効果あり。

Whisperファインチューニング

Hugging Face Transformersを使ってWhisper Small/Medium/Largeをファインチューニング。LoRAを使えばVRAM 24GBでもLargeモデルの調整が可能。

評価（WER / CER）

Word Error Rate（WER）/ Character Error Rate（CER）でベースラインと比較。日本語はCERが直感的な指標。テストセットは学習データと別に確保。

推論最適化＋デプロイ

CTranslate2 / faster-whisper / ONNX Runtime で推論速度を最適化。Whisper Large-v3でもリアルタイムの3〜5倍速で処理可能。

精度改善サイクル

誤認識パターン分析→対象音声データ追加→再ファインチューニング→デプロイ→繰り返し

学習環境と費用の比較（実績ベース）

Whisper Smallのファインチューニング：日本語音声データ100時間・10エポックの場合

学習環境	VRAM	時間単価	学習時間	1回の学習費用
GCP A100（東京）	40GB	約628円/時	4〜8時間	2,512〜5,024円
さくら高火力 H100	80GB	約1,008円/時	2〜4時間	2,016〜4,032円
当社 RTX PRO 6000	96GB	固定費のみ	8〜16時間	追加費用なし
RTX 4090（個人）	24GB	—	4〜8時間	電気代のみ（Large不可）

音声認識の特徴：ドメイン特化・ノイズ耐性・話者適応など、精度改善には15〜40回以上の試行が必要です。クラウドで25回試行すると5万〜12.5万円に達します。当社環境なら96GB VRAMでWhisper Largeのフルファインチューニングも可能、何度でも追加費用なしで精度を追求できます。

※ 価格はGCP東京リージョン・さくらインターネット高火力DOKの2025年公表価格に基づく。為替レート155円/USDで換算。

カスタム音声認識システムの開発

医療用語・法律用語・製造現場の専門用語に特化した高精度音声認識を構築できます。当社のNVIDIA RTX PRO 6000 Blackwell環境を活用し、従量課金なしでWhisperのファインチューニング・最適化を行います。

活用事例を見る

音声認識に最適なエッジAI機材

ブラウザでのデモ体験後、本格的にエッジAI音声認識システムを構築するための推奨機材です。

🎙️おすすめ

USBコンデンサーマイク

高感度・低ノイズのUSBマイク。音声認識の精度は入力品質に大きく依存するため、良質なマイクが重要。

楽天 Amazon

🖥️定番

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

楽天 Amazon

⚡高性能

NVIDIA Jetson Orin Nano

最大67 TOPSのAI性能。複数カメラの同時処理や高精度モデルの実行に最適なエッジAIボード。

楽天 Amazon

🔊

USB スピーカー

音声合成や環境音検出の確認用に。クリアな出力で結果の検証がしやすい。

楽天 Amazon

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

音声文字起こし

Whisperモデルとは

OpenAI Whisper

ブラウザ内推論

モデルサイズと精度

対応言語

Whisperモデルサイズ比較

音声認識AIの活用事例

医療カルテ音声入力

議事録・会議記録

教育・講義字幕

コールセンター分析

動画字幕生成

現場作業ハンズフリー記録

音声認識の精度を上げるコツ

マイクとの距離

静かな環境

はっきりした発話

適切な録音長

言語の指定

大きなモデルを使う

独自の音声認識システムを構築する

音声＋テキストペアデータ収集

Whisperファインチューニング

評価（WER / CER）

推論最適化＋デプロイ

精度改善サイクル

学習環境と費用の比較（実績ベース）

カスタム音声認識システムの開発

音声認識に最適なエッジAI機材

USBコンデンサーマイク

Raspberry Pi 5

NVIDIA Jetson Orin Nano

USB スピーカー

関連記事 — 詳しくはこちら

関連デモ