エッジAIラボ
エッジAIラボ
✍️

手書き文字認識

手書きで描いた数字をAIがリアルタイムで認識します。

ブラウザ内で完結 — データ送信なし🟢 📦 約1MB🤖 MNIST CNN⚖️ 自作

MNISTデータセットとは

MNIST(Modified National Institute of Standards and Technology)は、手書き数字認識のベンチマークとして最も広く使われているデータセットです。 機械学習の「Hello World」とも呼ばれ、AIを学び始めるときの最初の一歩として世界中で活用されています。

60,000

学習用画像

10,000

テスト用画像

28×28

画像サイズ(px)

0〜9

10クラス分類

使用しているCNNモデルの構造

このデモでは、畳み込みニューラルネットワーク(CNN)を使用しています。 わずか27,562パラメータの軽量モデルで、ブラウザ上でも高速に推論できます。

レイヤー詳細パラメータ数
入力層28×28×1(グレースケール画像)
Conv2D8フィルタ, 3×3, ReLU80
MaxPooling2D2×2
Conv2D16フィルタ, 3×3, ReLU1,168
MaxPooling2D2×2
Flatten5×5×16 → 400
Dense64ユニット, ReLU25,664
Dense(出力)10ユニット, Softmax650
合計27,562

テスト精度 98.67%:この小さなモデルでもMNISTの手書き数字を高い精度で認識できます。 推論はすべてブラウザ内(TensorFlow.js)で実行されるため、サーバーへのデータ送信は一切ありません。

認識精度を上げるコツ

✏️

太く大きく描く

キャンバスの中央付近に、太くはっきりとした線で数字を描いてください。細い線や小さい文字は28×28に縮小する際に消えてしまいます。

🎯

中央に配置する

MNISTの学習データは数字が中央に配置されています。キャンバスの端に書くと認識精度が下がります。

🔢

1文字ずつ描く

このモデルは1文字ずつの認識に特化しています。複数の数字を同時に書くと正しく認識できません。

🖌️

ゆっくり丁寧に

急いで描くと線が途切れたりガタガタになります。滑らかな線で描くと認識率が向上します。

🔄

うまくいかない時はクリア

描き直したい場合は「クリア」ボタンで一度リセットしてから再描画してください。重ね書きは精度低下の原因になります。

📊

確率分布を確認

認識結果の横棒グラフで各数字の確率を確認できます。AIが「迷っている」場合は類似する数字(例:1と7、3と8)の確率が拮抗します。

手書き文字認識の活用事例

📮

郵便番号・住所読取

手書きの郵便番号や住所をOCRで自動読取。年賀状や荷物の仕分けを大幅に効率化。

🏥

医療カルテのデジタル化

手書きの診療記録や処方箋を自動でテキスト化。電子カルテへの入力作業を削減。

🏦

銀行・金融の帳票処理

手書きの振込用紙・小切手の金額認識。RPA と組み合わせて事務作業を自動化。

📝

手書きノートのデジタル化

会議メモや授業ノートをスキャンしてテキスト変換。検索・共有・編集が可能に。

🎓

教育・採点支援

テストの手書き回答を自動採点。記述式問題の文字認識で教師の負担を軽減。

🏭

工場の検査記録

紙ベースの検査チェックシートをリアルタイムでデジタル化。トレーサビリティを確保。

カスタム文字認識モデルを構築する

MNISTの数字認識を超えて、ひらがな・カタカナ・漢字・特殊記号など、用途に特化した文字認識AIを構築できます。

1

学習データの収集・アノテーション

認識したい文字の手書きサンプルを収集。1文字あたり100〜500サンプルが目安。ETL文字データベースや自社書類のスキャンデータも活用可能。

2

前処理・データ拡張

二値化・ノイズ除去・正規化に加え、回転・拡大縮小・弾性変形などのデータ拡張でサンプル数を増やし汎化性能を向上。

3

モデル設計・学習

CNN / ResNet / Vision Transformerなどのアーキテクチャを選択。日本語OCRにはCRNN + CTCロスの組み合わせが高い実績あり。

4

TensorFlow.js / ONNX に変換

学習済みモデルをブラウザ実行可能な形式に変換。量子化(INT8)で軽量化すればモバイルでもスムーズに動作。

5

エッジデプロイ・実運用

ブラウザ・タブレット・Raspberry Piなどに展開。手書き入力UIと組み合わせてリアルタイム文字認識システムを構築。

学習環境と費用の比較(実績ベース)

日本語手書き文字認識モデル(CRNN + CTC):ETLデータセット・3,000文字クラス・50エポックの場合

学習環境VRAM時間単価学習時間1回の学習費用
GCP A100(東京)40GB約628円/時3〜6時間1,884〜3,768円
さくら高火力 H10080GB約1,008円/時1〜3時間1,008〜3,024円
当社 RTX PRO 600096GB固定費のみ6〜12時間追加費用なし
RTX 4090(個人)24GB4〜8時間電気代のみ

OCRの特徴:文字クラス数が多い日本語OCRでは、フォント差・書き癖・傾きへの対応に20〜50回の試行錯誤が一般的です。 クラウドで50回試行すると5万〜19万円に達するケースもあります。当社環境なら時間を気にせず何度でも最適化に取り組めます。

※ 価格はGCP東京リージョン・さくらインターネット高火力DOKの2025年公表価格に基づく。為替レート155円/USDで換算。

カスタム文字認識システムの開発

手書き帳票のデジタル化、日本語OCR、特殊フォント・記号の認識など、用途に特化した文字認識AIを構築できます。 当社のNVIDIA RTX PRO 6000 Blackwell環境を活用し、従量課金なしで何度でもパラメータ調整・再学習が可能です。

活用事例を見る

手書き文字認識に最適なエッジAI機材

ブラウザでのデモ体験後、本格的にエッジAI手書き文字認識システムを構築するための推奨機材です。

🖥️定番

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

📷おすすめ

Raspberry Pi AI Camera(IMX500)

Sony IMX500搭載のAI処理内蔵カメラ。カメラ側でAI推論を実行し、ホストの負荷が極めて低い。

🎥

4K Webカメラ(AI対応)

高解像度のWebカメラでAI認識の精度が向上。オートフォーカス・広角対応モデルがおすすめ。

📸

Raspberry Pi カメラモジュール V3

12MPセンサー搭載の公式カメラモジュール。HDR対応・オートフォーカスで高品質な映像入力が可能。

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

シェア: