ページの本文へ

Hitachi
お問い合わせ

テクノロジー

セマンティックセグメンテーションとは? 仕組みや技法など

近年、さまざまな場面でAIの活用が進んでいますが「第三次人工知能ブーム」として、ディープラーニング(深層学習)による画像認識技術の向上がきっかけとなっています。そんな画像認識技術は、「セマンティックセグメンテーション」をはじめとする手法により成り立っています。専門用語が多く、内容も難しいため詳しいことはわからない、という方は多いのではないでしょうか。

そこでこの記事では、画像認識技術の基礎知識やセマンティックセグメンテーションの概要をはじめ、仕組みやセグメンテーションの技法・手法、活用例について解説します。

  1. セマンティックセグメンテーションとは
  2. セマンティックセグメンテーションの仕組み
  3. セグメンテーションの技法・手法
  4. セマンティックセグメンテーションの活用例

セマンティックセグメンテーションとは

画像認識技術は「画像分類」「物体検出」「画像セグメンテーション」から成り立っていますが、今回は「画像セグメンテーション」について深掘りしていきます。

セグメンテーションは「分割」を意味しますが、画像認識技術では機械学習において画像を複数のオブジェクトに分割する技術のことです。その種類は大きく3つに分けられ、そのなかの一つに「セマンティックセグメンテーション」が存在します。

  • セマンティックセグメンテーション:領域分類、画像のピクセル一つひとつに対してラベル付け
  • インスタンスセグメンテーション:物体の領域を特定し個体ごとに領域分割・物体の種類を認識
  • パノプティックセグメンテーション:セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせたもの

セマンティックセグメンテーションは物体が重なっていると区別が難しいという欠点がありますが、空や道路などの不定形の領域を検出することが可能です。そのため、車の自動運転や医療画像解析など幅広い分野で活用が進んでいます。

セマンティックセグメンテーションの仕組み

AIが自ら学習し、判断・処理の精度を上げるために用いられる「機械学習」において、正しい学習データを用意することは非常に重要です。AIの精度を高めるためには「アノテーション」の存在が欠かせません。

アノテーションとは、テキスト・音声・動画などの異なるデータにラベルやタグを付ける作業のことです。アノテーションによって機械学習アルゴリズムにラベル付けされた情報が取り込まれることでパターン認識が実現できるようになるため、アノテーションが正確でないデータではAIが正しく学習できません。

セマンティックセグメンテーションは画像のピクセル一つひとつに対してラベル付けをしていくため、不定形の領域を高い精度で検出できます。

セグメンテーションの技法・手法

セグメンテーションには、さまざまな技法・手法が存在します。そのなかでも、代表的な技法・手法を簡単に解説します。

SegNet

SegNetは、セマンティックセグメンテーションの手法の一つであり、エンコーダとデコーダによって構成されています。画像からエンコーダによって抽象的に抽出し、デコーダによって高解像度な画像を再構築する仕組みです。

FCN

FCN(Fully Convolutional Network)も、セマンティックセグメンテーションの手法の一つです。日本語では「全層畳み込みネットワーク」と呼ばれ、CNN(畳み込みニューラルネットワーク)の分類の一つです。画像のなかの物体や顔・背景を認識してパターンを見つけることを得意としています。

U-NET

U-NETは、セマンティックセグメンテーション用のモデルであり、FCNの一種です。SegNetのようにエンコーダとデコーダによって構成されており、エンコーダの特徴マップをデコーダの特徴マップに連結させることで、ピクセル単位での分類精度を高める特徴を持ちます。

CNN

CNN(Convolutional Neural Network)は、いくつもの深い層を持ったニューラルネットワークであり、日本語では「畳み込みニューラルネットワーク」と呼ばれます。今日の画像認識技術向上の一端を担う存在であり、「一般物体認識」と呼ばれる画像認識のタスクにおいて優れた性能を備えるアルゴリズムです。

R-CNN

R-CNN(Region Convolutional Neural Network)は、物体検出用に考案されたモデルであり、インスタンスセグメンテーションなどに応用されています。二段階モデルの物体検出タスクモデルであり、画像内の物体の特徴部分を短形領域で複数選定します。そして抽出された領域に対してCNNを用い、特徴量を出力する仕組みとなっています。

FPN

FPN(Feature Pyramid Networks)は、日本語では「特徴ピラミッドネットワーク」と呼ばれ、画像データから抽出された特徴をピラミッド型に伝播させる手法です。深層学習における計算量やメモリ消費を軽減し、画像認識の効率化や検出精度の向上に役立てられています。

RNN

RNN(Recurrent Neural Network)は、日本語では「再帰型ニューラルネットワーク」と呼ばれ、時系列や文章などの連続的な情報を持つデータに適した手法です。画像の垂直・水平方向の連続性をモデル化できます。

セマンティックセグメンテーションの活用例

最後に、セマンティックセグメンテーションの活用例を簡単に紹介します。

画像診断

セマンティックセグメンテーションは不特定の領域を検出できるため、医療・建設・製造の現場で画像を用いた診断に活用されています。医療であれば咽頭画像からインフルエンザ判定を行うAI、建設・製造では0.1mm前後の異常を検出できる外観検査AIなどが実際に活用されています。

より詳しくは、こちらの記事でも解説していますので併せてご覧ください。
医療の現場でAI活用を進めるメリット・デメリット

自動運転

自動運転では、周囲の物体を瞬時に認識・識別し、正確に処理するために活用されています。自動運転においては秒単位の処理では追いつかず、瞬時に正しく認識して処理することが重要です。セマンティックセグメンテーションにより標識などを正しく瞬時に認識し、ルールに則った走行を実現します。

顔認証

近年では多くのスマートフォンにも顔認証は導入されており、身近な活用例の一つといえるでしょう。生体認証の一つであり高いセキュリティを実現できることから、さまざまな場面で導入が進められています。

顔認証システムについてより詳しく知りたい方は、こちらの記事も併せてご覧ください。
顔認証システムの仕組みと精度

セマンティックセグメンテーションは、画像のピクセル一つひとつに対してラベル付けするセグメンテーションの種類です。不定形の領域を検出でき、画像診断、自動運転、顔認証などのさまざまな分野で活用されています。

今日のAIブームは画像認識技術の発達が要因です。今後、画像認識技術はさらに発達すると考えられ、さまざまな業界・業種に応用されることでしょう。画像認識の活用事例については、こちらの記事でも詳しく解説しているのでぜひご覧ください。

AIによる画像認識の活用事例を紹介

日立ソリューションズ・クリエイトについて

日立ソリューションズ・クリエイトは、お客さまとの協創をベースに、豊富な経験とモノづくり力、ソリューション提供でお客さまのビジネスのDX加速や社会課題解決に貢献します。

メールマガジンのご案内(無料)
本ビジネスコラムのほか、当社の製品・サービス情報、セミナー・展示会、ニュースリリースなど、お客さまのビジネスに役立つ情報を不定期でお届けしています。登録は無料です。是非、ご登録ください。

登録はこちら

関連記事はこちら

RAG(検索拡張生成)とは? 生成AIとの関係や仕組みなど

生成AIを使ったことのある多くの方は「なぜか間違った情報を出力してしまう」という経験があるのではないでしょうか。これは「ハルシネーション(幻覚)」と呼ばれる現象...

詳細はこちら

システム開発の基礎知識と手法、開発費用や外部依頼時の注意点

業務効率化や顧客満足度向上に欠かせないシステム開発。しかし、その手法や費用、開発会社選びなど、初めての方には分かりづらい点も多いのではないでしょうか。本記事では...

詳細はこちら

クラウドシステムとは?種類・メリット・注意点・選び方のポイント

DX推進やリモートワークの普及が進む現代において、クラウドシステムはビジネスの成長を支える重要なツールです。この記事では、クラウドシステム導入による業務効率化を...

詳細はこちら

スクラッチ開発とは? パッケージ開発との違いやメリット・デメリットなど

システム開発の手法は、主に「スクラッチ開発」と「パッケージ開発」に分けられます。自社に最適なシステムを構築するためには、これらの手法の特徴を理解し、適切な選択を...

詳細はこちら

PoCとは?「PoV」「PoB」の違いも解説

近年、新しい技術やサービスを導入する際に「PoC」という言葉をよく耳にするようになりました。PoCは新しいアイデアや技術の実現可能性を検証するプロセスです。本記...

詳細はこちら

プログラミングスキルとは? 必要性や身につけ方など

プログラミングスキルは、現代社会において大きな関心を集めています。その理由の一つとして、テクノロジーの急速な進歩に伴い、プログラミングスキルを持つ人材への需要が...

詳細はこちら

Webアプリケーションとは? 仕組みや開発言語・手順などを解説

インターネットが普及し、私たちの生活に欠かせないものとなった今、Webアプリケーションはさまざまな場面で活躍しています。社内システムとしても利用する機会が多くな...

詳細はこちら

AI予測とは? 仕組みやメリット・デメリットなど

AI予測は、現代のビジネスや日常生活において重要な役割を果たしています。驚異的な精度と効率性により、企業の意思決定プロセスに革命をもたらしているのです。しかし、...

詳細はこちら

AI-OCRとは? OCRとの違いや仕組み・メリットなど

デジタル化が進む現代のビジネス環境において、紙文書や手書き文字の電子化は避けて通れない課題です。そのような状況で、注目を集めているものが、AI(人工知能)を活用...

詳細はこちら

生成AIのプロンプトの書き方を徹底解説! 押さえておくべきポイントなど

近年、ChatGPTなどの生成AIが注目されるようになりましたが、最大限に活用するためには適切なプロンプトの書き方が欠かせません。プロンプトの質が生成されるアウ...

詳細はこちら