Azure Cognitive Servicesを簡単に体験してみる

この記事の内容

Azure Cognitive Servicesが提供するAI機能の概要を紹介します
「Intelligent Kiosk」というツールを使って、APIキーなしでも手軽に体験する方法を解説します
顔認識・感情検知・物体検出・翻訳など、さまざまなシナリオのデモを紹介します
Cognitive ServicesのAPIはクラウド上に存在し、自作アプリケーションへの組み込みも容易です

Azure Cognitive Servicesとは

Azure Cognitive Servicesは、MicrosoftのAzureが提供するAI系サービス群です。いわゆる「人間の知覚」に関する機能——視覚、音声、言語、意思決定など——をAPIとして利用できます。自分でAIモデルをゼロから構築しなくても、クラウド上のAPIを呼び出すだけでこれらの機能をアプリケーションに組み込むことが可能です。

Intelligent Kiosk で体験してみる

Azure Cognitive Servicesを手軽に試すには、Intelligent Kioskというツールが便利です。このソフトウェアを使うと、APIキーなしでも体験できるシナリオが多数用意されており、Cognitive Servicesのデモとして最適です。

まずはIntelligent Kiosk を入手・インストールし、起動してみましょう。起動すると、さまざまなAIシナリオが一覧で表示されます。

試せる主なシナリオ

リアルタイム群衆インサイト（顔認識・感情検知）

カメラに映る人物をリアルタイムで解析し、以下のような情報を検知します。

推定年齢・性別
表情（ニュートラル、ハッピー、悲しいなど）
複数人の同時検知

実際に試してみると、カメラに映った人物について「40代・男性・ニュートラル」といった情報がリアルタイムで表示されます。笑顔を作ると「ハッピー」に変化するなど、表情の変化にもしっかり反応します。複数人が映っている場合でも、それぞれを同時に解析できます。

物体検出（Object Detection）

カメラに映る物体をリアルタイムで認識します。たとえば、テレビモニターやキーボード、マウスなどを判定できます。ただし、認識できるオブジェクトの種類はトレーニング済みのデータに依存するため、すべてのものを認識できるわけではありません。

異常検知（音量・音声）

マイクから入力される音声の音量を監視し、急激な変化を「異常」として検知する機能もあります。小さな声で話しているところから急に大きな声を出すと、異常として検知されます。ただし、ある程度大きな音を出し続けている状態では検知されない場合もあります。

翻訳（Translator）

テキストや音声のリアルタイム翻訳を試すことができます。Webサービスでも翻訳機能はありますが、Cognitive Servicesのトランスレーターを組み込んだデモとして体験できます。

有名人認識（Celebrity Recognition）

写真に映っている人物が有名人かどうかを判定する機能です。日本人の有名人にはあまりマッチしない場合もあるようです。

自作アプリへの組み込み

Intelligent Kiosk でのデモは、バックエンドとしてクラウド上のCognitive Services APIを呼び出す仕組みになっています。つまり、同様のことを自分で作ったアプリケーションでも実現できます。

APIキーを取得してAzureでサービスを作成し、そのAPIキーをアプリケーションに設定するだけで、顔認識や翻訳などの機能を自分のアプリに組み込めます。アイデア次第でさまざまな活用が可能です。

まとめ

Azure Cognitive Servicesは、AIの知覚系機能をAPIとして手軽に利用できるサービス群です。Intelligent Kiosk を使えば、コードを書かずともリアルタイムの顔認識・感情検知・物体検出・翻訳・音声検知といった機能をすぐに体験できます。

実際の活用としては、AzureポータルでCognitive Servicesのリソースを作成しAPIキーを取得するだけで、自作アプリケーションに同等の機能を組み込むことが可能です。まずはIntelligent Kiosk でどのような機能があるかを体験し、活用イメージを掴んでみてはいかがでしょうか。次のステップとして、実際にコードからAPIを呼び出す実装にも挑戦してみましょう。