テクノロジー

セマンティックセグメンテーションとは？仕組みや技法など

近年、さまざまな場面でAIの活用が進んでいますが「第三次人工知能ブーム」として、ディープラーニング（深層学習）による画像認識技術の向上がきっかけとなっています。そんな画像認識技術は、「セマンティックセグメンテーション」をはじめとする手法により成り立っています。専門用語が多く、内容も難しいため詳しいことはわからない、という方は多いのではないでしょうか。

そこでこの記事では、画像認識技術の基礎知識やセマンティックセグメンテーションの概要をはじめ、仕組みやセグメンテーションの技法・手法、活用例について解説します。

セマンティックセグメンテーションとは

画像認識技術は「画像分類」「物体検出」「画像セグメンテーション」から成り立っていますが、今回は「画像セグメンテーション」について深掘りしていきます。

セグメンテーションは「分割」を意味しますが、画像認識技術では機械学習において画像を複数のオブジェクトに分割する技術のことです。その種類は大きく3つに分けられ、そのなかの一つに「セマンティックセグメンテーション」が存在します。

セマンティックセグメンテーション：領域分類、画像のピクセル一つひとつに対してラベル付け
インスタンスセグメンテーション：物体の領域を特定し個体ごとに領域分割・物体の種類を認識
パノプティックセグメンテーション：セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせたもの

セマンティックセグメンテーションは物体が重なっていると区別が難しいという欠点がありますが、空や道路などの不定形の領域を検出することが可能です。そのため、車の自動運転や医療画像解析など幅広い分野で活用が進んでいます。

セマンティックセグメンテーションの仕組み

AIが自ら学習し、判断・処理の精度を上げるために用いられる「機械学習」において、正しい学習データを用意することは非常に重要です。AIの精度を高めるためには「アノテーション」の存在が欠かせません。

アノテーションとは、テキスト・音声・動画などの異なるデータにラベルやタグを付ける作業のことです。アノテーションによって機械学習アルゴリズムにラベル付けされた情報が取り込まれることでパターン認識が実現できるようになるため、アノテーションが正確でないデータではAIが正しく学習できません。

セマンティックセグメンテーションは画像のピクセル一つひとつに対してラベル付けをしていくため、不定形の領域を高い精度で検出できます。

セグメンテーションの技法・手法

セグメンテーションには、さまざまな技法・手法が存在します。そのなかでも、代表的な技法・手法を簡単に解説します。

SegNet

SegNetは、セマンティックセグメンテーションの手法の一つであり、エンコーダとデコーダによって構成されています。画像からエンコーダによって抽象的に抽出し、デコーダによって高解像度な画像を再構築する仕組みです。

FCN

FCN（Fully Convolutional Network）も、セマンティックセグメンテーションの手法の一つです。日本語では「全層畳み込みネットワーク」と呼ばれ、CNN（畳み込みニューラルネットワーク）の分類の一つです。画像のなかの物体や顔・背景を認識してパターンを見つけることを得意としています。

U-NET

U-NETは、セマンティックセグメンテーション用のモデルであり、FCNの一種です。SegNetのようにエンコーダとデコーダによって構成されており、エンコーダの特徴マップをデコーダの特徴マップに連結させることで、ピクセル単位での分類精度を高める特徴を持ちます。

CNN

CNN（Convolutional Neural Network）は、いくつもの深い層を持ったニューラルネットワークであり、日本語では「畳み込みニューラルネットワーク」と呼ばれます。今日の画像認識技術向上の一端を担う存在であり、「一般物体認識」と呼ばれる画像認識のタスクにおいて優れた性能を備えるアルゴリズムです。

R-CNN

R-CNN（Region Convolutional Neural Network）は、物体検出用に考案されたモデルであり、インスタンスセグメンテーションなどに応用されています。二段階モデルの物体検出タスクモデルであり、画像内の物体の特徴部分を短形領域で複数選定します。そして抽出された領域に対してCNNを用い、特徴量を出力する仕組みとなっています。

FPN

FPN（Feature Pyramid Networks）は、日本語では「特徴ピラミッドネットワーク」と呼ばれ、画像データから抽出された特徴をピラミッド型に伝播させる手法です。深層学習における計算量やメモリ消費を軽減し、画像認識の効率化や検出精度の向上に役立てられています。

RNN

RNN（Recurrent Neural Network）は、日本語では「再帰型ニューラルネットワーク」と呼ばれ、時系列や文章などの連続的な情報を持つデータに適した手法です。画像の垂直・水平方向の連続性をモデル化できます。

セマンティックセグメンテーションの活用例

最後に、セマンティックセグメンテーションの活用例を簡単に紹介します。

画像診断

セマンティックセグメンテーションは不特定の領域を検出できるため、医療・建設・製造の現場で画像を用いた診断に活用されています。医療であれば咽頭画像からインフルエンザ判定を行うAI、建設・製造では0.1mm前後の異常を検出できる外観検査AIなどが実際に活用されています。

より詳しくは、こちらの記事でも解説していますので併せてご覧ください。
医療の現場でAI活用を進めるメリット・デメリット

自動運転

自動運転では、周囲の物体を瞬時に認識・識別し、正確に処理するために活用されています。自動運転においては秒単位の処理では追いつかず、瞬時に正しく認識して処理することが重要です。セマンティックセグメンテーションにより標識などを正しく瞬時に認識し、ルールに則った走行を実現します。

顔認証

近年では多くのスマートフォンにも顔認証は導入されており、身近な活用例の一つといえるでしょう。生体認証の一つであり高いセキュリティを実現できることから、さまざまな場面で導入が進められています。

顔認証システムについてより詳しく知りたい方は、こちらの記事も併せてご覧ください。
顔認証システムの仕組みと精度

セマンティックセグメンテーションは、画像のピクセル一つひとつに対してラベル付けするセグメンテーションの種類です。不定形の領域を検出でき、画像診断、自動運転、顔認証などのさまざまな分野で活用されています。

今日のAIブームは画像認識技術の発達が要因です。今後、画像認識技術はさらに発達すると考えられ、さまざまな業界・業種に応用されることでしょう。画像認識の活用事例については、こちらの記事でも詳しく解説しているのでぜひご覧ください。

AIによる画像認識の活用事例を紹介

セマンティックセグメンテーションとは？仕組みや技法など

セマンティックセグメンテーションとは

セマンティックセグメンテーションの仕組み

セグメンテーションの技法・手法

SegNet

FCN

U-NET

CNN

R-CNN

FPN

RNN

セマンティックセグメンテーションの活用例

画像診断

自動運転

顔認証

当社の関連ソリューション/サービス

関連記事はこちら

セマンティックセグメンテーションとは？ 仕組みや技法など

セマンティックセグメンテーションとは

セマンティックセグメンテーションの仕組み

セグメンテーションの技法・手法

SegNet

FCN

U-NET

CNN

R-CNN

FPN

RNN

セマンティックセグメンテーションの活用例

画像診断

自動運転

顔認証

当社の関連ソリューション/サービス

関連記事はこちら

セマンティックセグメンテーションとは？仕組みや技法など