エッジAIラボ
エッジAIラボ
💬

Qwen 3.5 ブラウザチャット

Qwen 3.5 0.8BをWebGPUでブラウザ内実行。日本語対応の高性能LLMをサーバーなしで体験

ブラウザ内で完結 — データ送信なし🔴 📦 約500MB🤖 Qwen3.5-0.8B-ONNX (Q4)⚖️ Apache 2.0

Qwen 3.5 の特徴

🇯🇵

同規模モデル中で日本語最良

Qwen 3.5シリーズは日本語を含む100+言語に対応。ブラウザ実行可能な同サイズ(0.5〜1B)モデルの中では日本語品質が最も高いですが、ChatGPT等の大規模モデルとは精度に差があります。簡単な質問応答・要約・翻訳に実用的です。

🧠

思考モード搭載

Qwen 3.5は推論前に「思考」するモードを搭載。複雑な質問に対して段階的に推論し、より正確な回答を生成します。ブラウザ上でも思考プロセスが動作します。

WebGPU高速推論

Transformers.jsとONNX Runtimeにより、ブラウザのWebGPU APIでGPUアクセラレーションを利用。4bit量子化でメモリ消費を抑えつつ高速生成を実現。

🔒

完全プライバシー保護

全ての推論がブラウザ内で完結。入力テキストがサーバーに送信されることは一切ありません。社内機密情報や個人情報を含むテキストも安心して処理可能。

ブラウザで実行可能なLLMモデル比較

モデルパラメータダウンロード日本語*速度特徴
Qwen3.5-0.8B(本デモ)0.8B約500MB高速同規模モデル中で日本語最良・思考モード対応
LFM2-350M0.35B約100MB最速超軽量・英語特化
Qwen2.5-1.5B1.5B約800MB中速バランス型・29言語対応
Llama 3.2-1B1B約600MB高速Meta製・英語最適化
Phi-3.5 Mini3.8B約2GB低速推論特化・高品質
Gemma 2-2B2B約1.3GB中速Google製・指示追従
SmolLM2-360M0.36B約200MB×最速超軽量・コード生成

* 日本語評価はブラウザ実行可能な同規模パラメータのモデル同士での相対比較です。0.8B〜3.8Bクラスのモデルは、ChatGPT等の大規模モデル(数百B〜数兆パラメータ)と比べると日本語能力に大きな差があります。簡単な質問応答・要約・翻訳には実用的ですが、複雑な推論や長文生成には限界があります。

※ ダウンロードサイズは4bit量子化時の目安。WebGPU対応GPU搭載のPC推奨。VRAM不足の場合はWASMフォールバック(低速)で動作。

Qwen 3.5 の日本語性能

日本語に強い理由

  • 1.Alibabaの多言語コーパスで事前学習。日本語・中国語・英語のデータ比率が高く、CJK文字の処理に最適化。
  • 2.トークナイザが日本語文字を効率的にエンコード。英語特化モデルと比較してトークン効率が2〜3倍高い。
  • 3.指示追従チューニング(Instruct版)で日本語の指示理解力を強化。自然な日本語での応答が可能。

限界と注意点

  • 0.8Bパラメータのため、複雑な推論・長文生成の品質は7B以上のモデルには及ばない
  • 専門用語(医療・法律等)への対応は限定的。ファインチューニングで改善可能
  • ハルシネーション(事実と異なる出力)のリスクあり。出力の事実確認は必須
  • コンテキストウィンドウは限られるため、長い会話では品質が低下する

ブラウザチャットAIの活用事例

🏢

社内ナレッジ検索

社内文書・マニュアルをベースにしたFAQボット。機密情報がクラウドに流出するリスクなく、デスクトップブラウザで完結。

📝

文章作成・校正

メール・報告書のドラフト作成、文体統一、誤字脱字チェック。日本語の自然な文章生成はQwenの強み。

🌐

多言語翻訳

日英・日中など多言語ペアの翻訳をブラウザ内で完結。API費用なしで社内翻訳ツールを構築可能。

📊

データ分析補助

CSVデータの説明文生成、分析レポートのドラフト作成。データをクラウドに送らず分析を開始できる。

🎓

教育・学習支援

数学の解法説明、プログラミング学習のヒント提示。学生のプライバシーを守りながらAI学習支援を提供。

💻

コード生成

簡単なコードスニペット生成、正規表現の作成、SQL文の組み立て。開発者のプロダクティビティを向上。

チャットAIの回答品質を上げるコツ

📝

具体的な指示を出す

「○○について教えて」より「○○と△△の違いを3つの観点で比較して」のように、出力の形式・条件を明示すると品質が向上します。

🎯

役割を指定する

「あなたはプロの翻訳者です」のように役割を与えると、そのコンテキストに沿った高品質な回答を生成しやすくなります。

📏

質問を短く分割

0.8Bモデルは長い複雑な指示の処理に限界があります。質問を短く分割して段階的に聞くことで精度が向上します。

🌡️

温度パラメータ

本デモではtemperature=0.6を使用。0に近いほど確定的(事実確認向き)、1に近いほど創造的(ブレスト向き)。

🔄

会話をリセット

会話が長くなるとコンテキストが一杯になり品質が低下します。話題が変わったら「チャットをクリア」で新しい会話を開始しましょう。

⬆️

大きなモデルを使う

ブラウザ版は0.8Bモデルのため品質に限界があります。業務用途では7B〜70Bモデルをサーバーで実行することで飛躍的に品質向上します。

独自のチャットAIシステムを構築する

社内文書・業務知識・FAQ・製品情報を学習した、御社専用のチャットAIを構築できます。

1

学習データ構築

業務Q&Aペア、社内FAQ、マニュアルの質問-回答形式データを整備。RAG構成なら数十件のデータからでも開始可能です。

2

ベースモデル選定・ファインチューニング

Qwen 3.5 / Llama 3 / Gemma をベースにLoRAファインチューニング。QLoRAならVRAM 24GBでも7Bモデルの調整が可能。

3

評価・最適化

回答の正確性・有用性を人手評価。ハルシネーション率をモニタリングし、RAGパイプラインでファクトグラウンディングを強化。

4

デプロイ

vLLM / TensorRT-LLMで推論高速化。APIサーバーとしてSlack・Teams・社内ポータルに統合。エッジ展開やブラウザ展開も可能。

学習環境と費用の比較

Qwen3.5-7BのLoRAファインチューニング:日本語指示データ5,000件・5エポックの場合

学習環境VRAM時間単価学習時間1回の学習費用
GCP A100(東京)40GB約628円/時3〜6時間1,884〜3,768円
当社 RTX PRO 600096GB固定費のみ6〜12時間追加費用なし
RTX 4090(個人)24GB--3〜5時間電気代のみ(QLoRA必須)

カスタムチャットAIの開発

Qwen / Llama / Gemmaベースで御社専用のチャットAIを構築。96GB VRAM環境でファインチューニングから最適化まで一貫対応します。

お問い合わせ

チャットAIに最適なエッジAI機材

ブラウザでのデモ体験後、本格的にエッジAIチャットシステムを構築するための推奨機材です。

🖥️定番

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

高性能

NVIDIA Jetson Orin Nano

最大67 TOPSのAI性能。複数カメラの同時処理や高精度モデルの実行に最適なエッジAIボード。

🧠高性能

Hailo-8L AIアクセラレータ

13 TOPSのAI推論性能。Raspberry Pi 5のM.2スロットに装着してAI処理を高速化。

🖥️

7インチ タッチディスプレイ

Raspberry Pi公式タッチディスプレイ。エッジデバイスの操作画面や結果表示に最適。

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

シェア: