図面OCRの精度を上げる5つの方法｜解像度・前処理・後処理ガイド - SCAN-PRO

図面や設計書をスキャンして電子化する際に、OCRで文字を正確に読み取れないという悩みをお持ちではないでしょうか。図面には通常の文書と異なり、複雑な記号や細い線、縦書きなどが含まれます。そのため、OCR精度を上げるには適切な前処理が欠かせません。

本記事では、図面OCRの読み取り精度を向上させるための実務的な手順を解説します。スキャン段階から後処理までを5つのステップに整理し、解像度の選び方、二値化やノイズ除去などの前処理テクニック、OCRエンジン選定の視点を紹介します。具体的な数値基準や手法も交え、100%の認識を目指すのではなく、実務レベルで90〜99%の認識率を安定的に達成するための方法論をまとめました。

図面OCRが難しい理由

文字と図形が混在する構造

図面OCRが通常の文書OCRより難しい最大の理由は、文字と図形が同じ領域に存在することです。CAD製図では、以下のような要素が同一平面に重なり合っています。

寸法を示す数値
部品や工程の説明文
機械部品の輪郭線

一般的なOCRエンジンは文字領域の抽出を前提に設計されており、背景となる図形を除外する処理が必要です。ここで不正確な処理をすると、文字の一部が削られたり、逆に図形のノイズが読み込まれたりします。

さらに、設計図には0.1mm以下の細い線が多く含まれます。低解像度でスキャンすると、これらの線は完全に失われてしまい、図面としての意味が損なわれます。

縦書き・斜め配置・表組みの複雑性

建築図面や機械図面では、縦書きの説明文が含まれることが珍しくありません。また、寸法値が図面内の任意の角度で配置されている場合もあります。

OCRエンジンは通常、左から右への読み取りを基本とします。そのため、縦書きや斜め配置のテキストは正確に認識できません。さらに、複数の部品リストや寸法表が表組み形式で配置されている場合は、行と列の構造を正しく理解する必要があります。

これらの複雑さを単一のOCRエンジンだけで処理するのは困難です。実務では、前処理と後処理の工夫が不可欠になります。

ステップ1：スキャン解像度の最適化

推奨DPI（300/400/600）の使い分け

スキャン解像度はdpi（dots per inch）で表記され、数値が大きいほど高精細です。図面スキャン dpiの選定は、OCR精度を左右する最初の分岐点といえます。

300dpiは一般的なオフィス文書向けの標準解像度です。通常の活字テキストであれば十分な精度が得られます。ただし、図面の細い線や8ポイント以下の小さな文字が多い場合は不足します。

400dpiは、図面OCRの実務で最も推奨される解像度です。細い線や小さな寸法値を正確に捉えながら、スキャン速度とファイルサイズのバランスが取れています。建築図面や電気回路図の標準解像度として位置付けられます。

600dpiは超高精細スキャンであり、複雑な機械部品図や手書き注記が混在する図面に有効です。ただし、ファイルサイズが2倍以上に増加し、OCR処理時間も長くなります。必要に応じて部分的に使用するのが現実的です。

一般的な使い分けの目安は次のとおりです。

400dpiを基本にする
微細な部品図は600dpiに引き上げる
簡潔な図面は300dpiで対応する

このように原稿の特性に応じて切り替えることで、効率的な運用が可能になります。

解像度を上げ過ぎる弊害

高解像度なら必ず精度が向上するとは限りません。むしろ、過度に高い解像度はノイズを増幅し、かえってOCR精度を低下させることもあります。

800dpi以上では、スキャナーの読み込み解像度限界に近づき、センサーノイズが顕著になります。また、ファイルサイズが急速に膨張するため、ストレージコストとOCR処理の負荷も増大します。

さらに、古い図面やコピーが劣化した図面を高解像度でスキャンすると、かすれやシミまで細かく拾い上げられます。結果として後処理が複雑化することも少なくありません。つまり、原稿の品質に応じた適切な解像度選択が重要なのです。

ステップ2：前処理（二値化・ノイズ除去）

適応的二値化による文字と背景の分離

二値化とは、グレースケール画像を黒と白の2値に変換するプロセスです。OCRエンジンは通常、テキストが黒、背景が白の画像に最適化されています。そのため、二値化は図面 OCR 精度を高めるうえでの鍵となる処理です。

従来の大津法（Otsu’s method）は、画像全体に対して単一の閾値を設定する手法です。しかし、図面のように背景の濃さが変動する場合には不向きです。例えば、スキャン時の陰影により同じ黒い線でも領域によって濃度が異なれば、単純な閾値処理では文字が失われてしまいます。

適応的二値化では、画像を局所領域に分割し、各領域で異なる閾値を動的に計算します。これにより、背景のムラを吸収しながら、テキストと図形の境界をシャープに保つことができます。

実装としては、OpenCVなどのライブラリを使用してadaptiveThreshold関数を適用するのが一般的です。パラメータを調整することで、微細な線の破損と背景ノイズ除去のバランスを取ることが可能になります。

ノイズ・かすれ補正

図面には、次のような多様な障害が混在しています。

スキャナーのセンサーノイズ
原稿の経年劣化
インクのかすれや欠け

これらを個別に除去する処理が必要です。

モルフォロジー変換（膨張・収縮処理）を用いると、1〜2ピクセル程度の孤立したノイズを除去できます。小さなドットやゴミのような点を除きながら、太い線は保護できる点が利点です。

中央値フィルタ（メディアンフィルタ）は、スキャナーのセンサーノイズのように散在する孤立点（ごま塩ノイズ）の除去に有効です。注目画素を周囲ピクセルの中央値で置き換えるため、エッジを比較的保ったまま、スパイク状のノイズだけを抑えられます。ただし、過度に適用すると細い線やエッジがぼやけ、場合によっては消えてしまうため、3×3〜5×5程度のカーネルサイズにとどめるのが推奨されます。なお、かすれや途切れた線をつなぎ直したい場合は、メディアンフィルタではなく、モルフォロジーのクロージング処理（膨張→収縮）が適しています。小さな隙間を埋めて線の連続性を回復しつつ、文字の形状を保ちやすい点が利点です。

さらに、エッジ強調フィルタを軽く適用すると、細い線と文字の輪郭を明確化できます。ただし、ノイズ除去とエッジ強調は相反する処理です。両立させるには、複数回のパス処理や段階的な調整が求められます。

ステップ3：OCRエンジンの選定

一般文書向けと図面特化型の違い

市販のOCRエンジンは大別して、汎用型と特化型に分かれます。

Google Cloud Vision APIやTesseractなどの汎用エンジンは、新聞や書籍などの一般文書を高精度で読み取るよう訓練されています。認識率は通常90〜95%ですが、図面内の記号や部品名には対応が不十分です。

一方、図面・CAD特化型のAI-OCRでは、機械図面や設計書に多く出現する記号、型番フォーマット、技術用語を学習しています。認識率は95〜99%に達することもあります。ただし、導入コストと学習期間が長くなる点には注意が必要です。

実務的には、汎用エンジンで初期認識を行い、後処理で補正するハイブリッドアプローチも有効な選択肢になります。

AI-OCRの活用領域と限界

機械学習を応用したAI-OCRは、低品質画像やノイズの多い図面でも高い認識率を維持しやすい特長があります。ただし、学習データに含まれない新規の記号や手書き文字には対応できません。

AI-OCRの導入には、辞書登録や学習データの事前準備が必須となります。単にOCRエンジンを起動するだけでは期待値を達成できず、企業固有の用語体系や図面フォーマットに合わせた調整工程が欠かせません。

また、クラウド型のAI-OCRサービスを使用する場合は、図面内の機密情報（特許関連の設計仕様など）をアップロードすることによるセキュリティリスクも考慮が必要です。

ステップ4：辞書登録と用語学習

部品名・型番のカスタム辞書

図面に頻出する部品名や型番をOCRエンジンの辞書に登録すると、認識精度が大幅に向上します。例えば「M10×50ボルト」や「SKF6205」といった業界標準の部品記号は、事前登録によって確実に読み取れるようになります。

カスタム辞書を構築する際は、社内で実際に使用されている部品リストやCADライブラリから候補語句を抽出します。重要度の高い項目から優先的に登録するとよいでしょう。具体的には、次のような項目が中心となります。

製品番号
仕様コード
頻出する材質名や規格名

多くのOCRエンジンはXML形式やCSV形式の辞書ファイルに対応しています。定期的にメンテナンスすることで、精度を継続的に向上させられます。

略語・社内記号の事前登録

図面には特有の記号や略語が多く登場し、これらが認識の障害になることもあります。代表例は以下のとおりです。

「Φ（パイ）」：直径を示す記号
「R（アール）」：半径を示す記号
「W/H（幅/高さ）」：寸法表記の略号

これらをエンジンが正しく識別できるよう、事前に学習データに組み込んでおく必要があります。

社内独自の記号体系がある場合は、その定義ドキュメントをOCRの学習に供給することで、一貫性のある読み取りが実現します。ただし、記号の多様性が高い場合は、正規表現マッチングで後処理する方が効率的なケースもあります。

ステップ5：後処理と人手レビュー

信頼度スコアによる仕分け

OCRエンジンの出力には、各テキスト要素に対する信頼度スコア（confidence score）が含まれます。通常は0〜100%の範囲で表され、値が高いほど認識の確実性が高いことを示します。

実務では、信頼度に応じて次のように仕分けるのが一般的です。

80%以上：自動確定
60〜80%：要確認
60%未満：要手動入力

この閾値は、用途や精度要件に応じて柔軟に調整できます。

信頼度ベースの仕分けにより、限られた人手を最適に配置できる点が大きな利点です。機械で確実に読めた部分には人手をかけず、曖昧な部分に集中することで、全体のコスト効率が大幅に向上します。

ロット番号・寸法の手動補正

OCRが誤認識しやすい項目には、次のようなものがあります。

ロット番号
寸法値
日付や年号表記

これらは自動認識結果を鵜呑みにせず、人手で確認するプロセスを組み込むとよいでしょう。

特に寸法値は製造精度に直結するため、100と1000の誤認識は許されません。デジタル化工程において、数値検証ロジック（例えば、寸法が物理的に妥当な範囲かを判定する仕組み）を実装すれば、明白なエラーを自動検出できます。

また、複数の図面でテンプレート化された項目（社名、部門、承認者印など）は、初回スキャン時に標準値として登録しておきましょう。以降は比較照合で効率化することも効果的です。

デメリット・注意点

100%認識は現状困難

図面OCRの認識率が99%付近で止まる理由は、物理的な原稿品質とOCR技術の限界にあります。古い図面、複数世代を経たコピー、手書き注記が混在する場合、100%を目指すのは現実的ではありません。

むしろ、認識率90〜99%を安定的に達成し、残り1〜10%を効率よく人手補正するプロセス設計が重要になります。この戦略をとることで、全体のコスト対効果を最大化できます。

過度に精度を追求すると、前処理パラメータの微調整に莫大な時間を費やすことになります。結果として経済性が損なわれる点には注意が必要です。

維持運用コスト

カスタム辞書やAI-OCRモデルは、一度構築したら終わりではありません。次のような変化があるたびに、定期的なメンテナンスが必要となります。

新規部品が追加された場合
図面フォーマットが変更された場合
新しい記号体系が導入された場合

特に、図面の標準化が進まない企業では、常に新しい記号やレイアウトが出現するため、辞書の更新が継続的な負担になりやすい傾向があります。

また、複数のOCRエンジンを運用する場合は、ライセンス費用やバージョン管理もコストとして加わります。経営層の理解を得るには、投資対効果の可視化が欠かせません。

まとめ

5つのステップを統合する

図面OCRの精度を向上させるには、単一の施策ではなく複数の取り組みを統合的に実践することが大切です。具体的には、次の5つのステップを連携させます。

スキャン解像度の最適化
前処理（二値化・ノイズ除去）
OCRエンジンの選定
辞書登録と用語学習
後処理と人手レビュー

400dpiのスキャン解像度を基本としつつ、適応的二値化とノイズ除去を適切に組み合わせます。さらに図面向けのOCRエンジンを選定し、カスタム辞書を充実させることで、90〜99%の認識率を現実的に達成しやすくなります。

現実的なゴール設定が成功の鍵

重要なのは、100%を目指さず、限られた予算の中で最適なバランスを取ることです。認識率99%でも残る1%の誤りは、自動検出ロジックと人手補正で対応するハイブリッド戦略が実務的といえます。

書類の電子化・デジタル化を進める際には、図面OCRの処理工程をどの段階で人手を入れるか、どこまで自動化するかを事前に設計することが効果的です。こうした設計を行っておくと、スケーラブルで継続可能なシステムが実現しやすくなります。

図面管理の効率化を検討する際は、解像度・前処理・エンジン選定・辞書・後処理という5つの視点を継続的に見直していくことをおすすめします。