【2024年最新】Azure OpenAIのVision拡張によるOCR利用の可能性を解説

GPT(Generative Pre-trained Transformer)を活用することで、Azure AI Vision拡張によるOCR(Optical Character Recognition:光学文字認識)技術の拡張が可能です。文字認識の精度が高まるため、読みづらい文字やぼやけている文字も正確に読み取れるようになり、業務効率の向上やミスの低減を実現できます。

この記事では、Azure AI Vision拡張によるOCR(Optical Character Recognition:光学文字認識)技術の拡張について、解説します。

目次

Azure OpenAIとは

Azure OpenAI Serviceは、OpenAI社の人工知能(AI)サービスです。OpenAIが開発したGPT-4やChatGPTなど、自然言語処理モデルを活用できます。また、Azure OpenAI ServiceはMicrosoft社が提供するAzure Cognitive Servicesの一部であり、クラウドベースのAIサービスを使用してアプリケーションの開発が可能です。その特長の1つは、専門知識がなくてもAIモデルを活用したサービスを容易に構築できる点です。

OpenAIのモデルを利用するには、「Azure OpenAI Service」または「OpenAI」を使用する方法がありますが、セキュリティ面ではAzure OpenAI Serviceの方が優れています。Azure OpenAI Serviceでは、入力情報がAIのトレーニングに利用されず、Microsoft Azureのセキュリティ機能を使用できます。これにより、機密性の高い情報も安全に取り扱うことができます。

Azure OpenAI Serviceの特長は以下の3つです。

  • Microsoft Azureの強固なセキュリティでサービスが保護されており、機密性が高い開発環境を実現できる
  • 多様なAIモデルを利用できるため、高度な文章生成や自然言語処理が可能
  • 導入やスケールアップ・ダウンがスムーズにできる
  • クラウドベースであるため、物理的なオンプレミスサーバが必要なく、必要に応じて業務アプリケーションやデータベースを増減できる

Azure OpenAIの利用手順

Azure OpenAIを利用するには、以下の手順が必要です。

STEP
Azure サブスクリプションの確認

Azure OpenAIを利用するには、Azure サブスクリプションが必要です。まだサブスクリプションを持っていない場合は、https://azure.microsoft.comで作成できます。

STEP
Azure OpenAI サービスへのアクセス申請

Azure OpenAI サービスは、申請制で提供されています。以下のフォームからアクセスを申請できます。
https://aka.ms/oai/access

STEP
申請承認後の利用開始

申請が承認されると、Azure Portal で Azure OpenA StudioI サービスを利用できるようになります。

STEP
モデルの選択とデプロイ

Azure OpenAI Studioサービスでは、様々な AI モデルが提供されています。利用したいモデルを選択して、デプロイします。
※2024年3月現在、GPT-4のリソースは特定の地域(リージョン)でしか提供されておりません。
 利用したいモデルが提供されている地域(リージョン)のサービスを利用する必要があります。

STEP
アプリケーションの開発

デプロイしたモデルを利用して、AI アプリケーションを開発できます。
また、Vision拡張の機能を使うためには、Azure PortalからComputer Visionのリソース(価格レベルS1)をAzureOpenAIと同じリージョンで作成する必要があります。

Azure OpenAIでgpt-4 with VisionのVision拡張機能を利用する方法

STEP
Azure OpenAI Studioで、「gpt-4」モデルの「vision-preview」をデプロイします。

※2024年3月現在の情報をベースにしております。時期により利用可能なモデルのバージョンは変わる可能性があります。

STEP
Azure OpenAI Studioのプレイグラウンドのチャットにて、1でデプロイしたモデルを選択して、「ビジョン」の項目を有効にします。
STEP
チャットプレイグラウンドで動画ファイルや画像ファイルをアップロード可能となり、画像の内容を問い合わせることが出来ます。
STEP
以下のように画像の関する問い合わせをすることが出来ます。

上記の画像は、ピンボケさせて撮影した名刺データを利用したため、正確に読み取ることは難しいのですが、以下のように正確に読み取ることが出来ました。
なお、上記のVision拡張を設定していない場合は全く読み取れません。

STEP
プログラムコードとして利用する場合は、チャットプレイグラウンドでコード表示をクリックすることでサンプルコードが表示されます。

拡張機能を使った場合の、エンドポイントは以下になります。通常のGPT-4 with Visionとは異なります。
エンドポイント:
https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version={API_VERSION}

※2024年3月現在api-versionは、「2024-2-15-preview」と表示されますが、このapi-versionでは正常に動作しないことを確認しています。api-versionを「2023-12-01-preview」とすれば動作することを確認しています。
※情報は2024年3月現在のものです。最新の情報については、公式ドキュメントを参照してください。

Azure OpenAIでgpt-4 with VisionのVision拡張機能の能力検証

Azure OpenAIのgpt-4 with VisionのVision拡張機能の能力を検証するために以下の3パターンでの検証を実施しました。

  • Azure OpenAI gpt-4 with Vision(Vision拡張あり)
  • Azure OpenAIgpt-4 with Vision(Vision拡張なし)
  • Google gemini 1.5

利用した画像データは以下の4パターンです。

・手書き画像(名刺風) 通常(ややピンぼけ)

・手書き画像(名刺風) ピンぼけ

・手書き画像(名刺風) 回転

・手書き画像(名刺風) 回転 ピンぼけ

上記の画像より、「氏名」、「ふりがな」、「会社名」、「部署」、「携帯電話番号」、「電話番号」、「日付」の項目を抽出する検証を実施しました。

手書き画像(名刺風) 通常(ややピンぼけ

名前フリガナ会社名部署携帯番号電話番号日付
vision拡張⚪︎⚪︎⚪︎⚪︎
vision拡張なし⚪︎⚪︎×⚪︎⚪︎⚪︎
gemini1.5 pro××××××⚪︎

手書き画像(名刺風) ピンぼけ

名前フリガナ会社名部署携帯番号電話番号日付
vision拡張×××××××
vision拡張なし×××××××
gemini1.5 pro×××××××

手書き画像(名刺風) 回転

名前フリガナ会社名部署携帯番号電話番号日付
vision拡張⚪︎⚪︎⚪︎⚪︎
vision拡張なし×××××××
gemini1.5 pro×××××

手書き画像(名刺風) 回転 + ピンぼけ

名前フリガナ会社名部署携帯番号電話番号日付
vision拡張⚪︎×××××
vision拡張なし×××××××
gemini1.5 pro××××

かなり難易度の高い手書き画像でしかも、ひっかけ問題のような内容も含まれていたためかなり成績は悪くなってしまいましたが、以下のような傾向が読み取れます。

  • 全体にピンぼけさせた画像の読み取りは困難
  • 回転画像の読み取りは、Vision拡張を利用した場合は回転なしとほぼ同じ精度が出る。(gpt-4 with 1visionやgemini proは回転画像の認識は困難なので、向きを修正してから入力した方が良い)
  • 手書き文字もかなりの精度で認識できる
  • 手書き文字の類推は、Vision拡張を使用しないケースの方が精度が高いケースもある。(前後から類推可能な場合と思われる。逆に一般的な単語に近い単語の場合は、類推を働かせることで逆に間違える可能性がある。)

なお、印刷文字に対しても同様のテストを実施いたしましたが、認識率は上記の結果よりも精度が高いのですが同様の傾向が見られました。
(印刷文字に関しては、gemini1.5 proがgpt-4 with vision(vision拡張なし)と同様または、gemini1.5 proの方ややや精度が高いという結果となりました。)

特に手書き文字を扱う場合は、正常な向きの画像ではないケースが多いと考えられますので、Vision拡張を利用することは非常に有用であると考えられます。

GPT-4 with VisionのVision拡張機能とその応用例

GPT-4 with VisionのVision拡張機能は、画像認識とテキスト理解の融合により、多様な応用が可能になります。ここでは、その画期的な応用例をいくつか紹介します。

フリーフォーマットの文書読み取りの自動化

従来の光学式文字認識(OCR)技術では、特定のフォーマットに準じた文書の読み取りは可能でしたが、フリーフォーマットの文書や手書きメモなどの解析は難しいとされていました。GPT-4 with Visionの導入により、不明瞭な部分や変則的なフォーマットでも、コンテキストを理解し推測することで、正確な読み取りが可能になります。
※AIによる予測プロセスに依存しているため、結果の正確性は100%とは言い切れませんが、大幅な時間短縮と効率化を実現します。

会議室のホワイトボード内容のデジタル化

会議やブレインストーミングセッションで使用されるホワイトボードの内容を、GPT-4 with Visionを利用して高精度にデジタル化することができます。図表やテキストを含む複雑な情報も正確に読み取り、整理して出力することで、会議後の情報共有やアーカイブの手間を削減します。

過去の紙資料のデジタル変換

歴史的文書や過去の研究資料など、さまざまなフォーマットで保管されている紙資料を、GPT-4 with Visionを活用して効率的にデジタル化することが可能です。フォーマットに依存せず、必要な情報を抽出・整理し、アクセスしやすい形での保存が可能になります。

簡易外観検査の実現

GPT-4 with Visionを利用することで、製品の外観検査を簡易に自動化することも可能です。正常な製品画像と比較分析し、異常が疑われる箇所を検出することで、品質管理の精度を向上させることができます。

例:ネジの欠陥判定

正常品(正常画像)

異常品(テスト画像)

判定結果:欠陥あり。

テスト画像には、ネジの頭部に明らかな損傷が確認できます。具体的には、ネジの頭の一部が削れており、基準画像におけるネジの完全な形状とは異なっています。このような損傷は、ネジの機能に影響を与える可能性があり、取り付け時にドライバーが適切に嵌まらない原因となる可能性があるため、欠陥と判断されます。また、ネジの頭部以外に目立った違いは見受けられませんが、頭部の損傷のみで欠陥品と判定するには十分です。

※MVTECデータセットのデータを利用
https://www.mvtec.com/company/research/datasets/mvtec-ad
 (MVTECデータセットは商用利用が認められておりません。)

GPT-4 with Visionでは、小さな欠陥を見つけることは難しいのですが、大きな欠陥については容易に見つけることが出来ます。また、検査のための準備も「正常品の画像」、「確認したい欠陥を見つけるためのプロンプト文」の準備のみで検査を実施することが出来るため、容易に簡易的な外観検査を実施することが出来ます。

まとめ:Azure OpenAIを利用して業務プロセスを効率化しましょう

AzureとERPの融合は、企業のデジタル変革を大きく推進しています。特にGPTをはじめとするAI技術の統合により、自然言語処理を通じたデータの理解と操作が可能になり、業務効率の大幅な向上が見込まれます。この技術革新は、顧客サービスの質の向上、コスト削減、そして迅速な意思決定を実現し、企業の競争力を高めます。また、Azure OpenAIのVision拡張によるOCR技術の進化は、従来困難であったフリーフォーマット文書や手書きメモの解析を可能にし、さらなる業務プロセスの効率化を促します。ERPとAI技術の融合は、BtoBビジネスにおいて革新的な変化をもたらし、企業が新たなビジネスチャンスを捉えるための重要な鍵となっています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次