✍️

手書き文字認識

手書きで描いた数字をAIがリアルタイムで認識します。

ブラウザ内で完結 — データ送信なし🟢 📦 約1MB🤖 MNIST CNN⚖️ 自作

MNISTデータセットとは

MNIST（Modified National Institute of Standards and Technology）は、手書き数字認識のベンチマークとして最も広く使われているデータセットです。機械学習の「Hello World」とも呼ばれ、AIを学び始めるときの最初の一歩として世界中で活用されています。

60,000

学習用画像

10,000

テスト用画像

28×28

画像サイズ（px）

0〜9

10クラス分類

使用しているCNNモデルの構造

このデモでは、畳み込みニューラルネットワーク（CNN）を使用しています。わずか27,562パラメータの軽量モデルで、ブラウザ上でも高速に推論できます。

レイヤー	詳細	パラメータ数
入力層	28×28×1（グレースケール画像）	—
Conv2D	8フィルタ, 3×3, ReLU	80
MaxPooling2D	2×2	—
Conv2D	16フィルタ, 3×3, ReLU	1,168
MaxPooling2D	2×2	—
Flatten	5×5×16 → 400	—
Dense	64ユニット, ReLU	25,664
Dense（出力）	10ユニット, Softmax	650
合計		27,562

テスト精度 98.67%：この小さなモデルでもMNISTの手書き数字を高い精度で認識できます。推論はすべてブラウザ内（TensorFlow.js）で実行されるため、サーバーへのデータ送信は一切ありません。

認識精度を上げるコツ

✏️

太く大きく描く

キャンバスの中央付近に、太くはっきりとした線で数字を描いてください。細い線や小さい文字は28×28に縮小する際に消えてしまいます。

🎯

中央に配置する

MNISTの学習データは数字が中央に配置されています。キャンバスの端に書くと認識精度が下がります。

🔢

1文字ずつ描く

このモデルは1文字ずつの認識に特化しています。複数の数字を同時に書くと正しく認識できません。

🖌️

ゆっくり丁寧に

急いで描くと線が途切れたりガタガタになります。滑らかな線で描くと認識率が向上します。

🔄

うまくいかない時はクリア

描き直したい場合は「クリア」ボタンで一度リセットしてから再描画してください。重ね書きは精度低下の原因になります。

📊

確率分布を確認

認識結果の横棒グラフで各数字の確率を確認できます。AIが「迷っている」場合は類似する数字（例：1と7、3と8）の確率が拮抗します。

手書き文字認識の活用事例

📮

郵便番号・住所読取

手書きの郵便番号や住所をOCRで自動読取。年賀状や荷物の仕分けを大幅に効率化。

🏥

医療カルテのデジタル化

手書きの診療記録や処方箋を自動でテキスト化。電子カルテへの入力作業を削減。

🏦

銀行・金融の帳票処理

手書きの振込用紙・小切手の金額認識。RPA と組み合わせて事務作業を自動化。

📝

手書きノートのデジタル化

会議メモや授業ノートをスキャンしてテキスト変換。検索・共有・編集が可能に。

🎓

教育・採点支援

テストの手書き回答を自動採点。記述式問題の文字認識で教師の負担を軽減。

🏭

工場の検査記録

紙ベースの検査チェックシートをリアルタイムでデジタル化。トレーサビリティを確保。

カスタム文字認識モデルを構築する

MNISTの数字認識を超えて、ひらがな・カタカナ・漢字・特殊記号など、用途に特化した文字認識AIを構築できます。

学習データの収集・アノテーション

認識したい文字の手書きサンプルを収集。1文字あたり100〜500サンプルが目安。ETL文字データベースや自社書類のスキャンデータも活用可能。

前処理・データ拡張

二値化・ノイズ除去・正規化に加え、回転・拡大縮小・弾性変形などのデータ拡張でサンプル数を増やし汎化性能を向上。

モデル設計・学習

CNN / ResNet / Vision Transformerなどのアーキテクチャを選択。日本語OCRにはCRNN + CTCロスの組み合わせが高い実績あり。

TensorFlow.js / ONNX に変換

学習済みモデルをブラウザ実行可能な形式に変換。量子化（INT8）で軽量化すればモバイルでもスムーズに動作。

エッジデプロイ・実運用

ブラウザ・タブレット・Raspberry Piなどに展開。手書き入力UIと組み合わせてリアルタイム文字認識システムを構築。

学習環境と費用の比較（実績ベース）

日本語手書き文字認識モデル（CRNN + CTC）：ETLデータセット・3,000文字クラス・50エポックの場合

学習環境	VRAM	時間単価	学習時間	1回の学習費用
GCP A100（東京）	40GB	約628円/時	3〜6時間	1,884〜3,768円
さくら高火力 H100	80GB	約1,008円/時	1〜3時間	1,008〜3,024円
当社 RTX PRO 6000	96GB	固定費のみ	6〜12時間	追加費用なし
RTX 4090（個人）	24GB	—	4〜8時間	電気代のみ

OCRの特徴：文字クラス数が多い日本語OCRでは、フォント差・書き癖・傾きへの対応に20〜50回の試行錯誤が一般的です。クラウドで50回試行すると5万〜19万円に達するケースもあります。当社環境なら時間を気にせず何度でも最適化に取り組めます。

※ 価格はGCP東京リージョン・さくらインターネット高火力DOKの2025年公表価格に基づく。為替レート155円/USDで換算。

カスタム文字認識システムの開発

手書き帳票のデジタル化、日本語OCR、特殊フォント・記号の認識など、用途に特化した文字認識AIを構築できます。当社のNVIDIA RTX PRO 6000 Blackwell環境を活用し、従量課金なしで何度でもパラメータ調整・再学習が可能です。

活用事例を見る

手書き文字認識に最適なエッジAI機材

ブラウザでのデモ体験後、本格的にエッジAI手書き文字認識システムを構築するための推奨機材です。

🖥️定番

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

楽天 Amazon

📷おすすめ

Raspberry Pi AI Camera（IMX500）

Sony IMX500搭載のAI処理内蔵カメラ。カメラ側でAI推論を実行し、ホストの負荷が極めて低い。

楽天 Amazon

🎥

4K Webカメラ（AI対応）

高解像度のWebカメラでAI認識の精度が向上。オートフォーカス・広角対応モデルがおすすめ。

楽天 Amazon

📸

Raspberry Pi カメラモジュール V3

12MPセンサー搭載の公式カメラモジュール。HDR対応・オートフォーカスで高品質な映像入力が可能。

楽天 Amazon

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

手書き文字認識

MNISTデータセットとは

使用しているCNNモデルの構造

認識精度を上げるコツ

太く大きく描く

中央に配置する

1文字ずつ描く

ゆっくり丁寧に

うまくいかない時はクリア

確率分布を確認

手書き文字認識の活用事例

郵便番号・住所読取

医療カルテのデジタル化

銀行・金融の帳票処理

手書きノートのデジタル化

教育・採点支援

工場の検査記録

カスタム文字認識モデルを構築する

学習データの収集・アノテーション

前処理・データ拡張

モデル設計・学習

TensorFlow.js / ONNX に変換

エッジデプロイ・実運用

学習環境と費用の比較（実績ベース）

カスタム文字認識システムの開発

手書き文字認識に最適なエッジAI機材

Raspberry Pi 5

Raspberry Pi AI Camera（IMX500）

4K Webカメラ（AI対応）

Raspberry Pi カメラモジュール V3

関連記事 — 詳しくはこちら

関連デモ