一風変わった画像解析AI⁉️
~「PiccyBot」のご紹介~
OpenAIの会話型AIモデル、ChatGPT 4が一般公開されたことにより、最近では視覚障碍者向けの画像認識アプリが数多くリリースされています。SNSなどでも、画像の代替テキストに「Be My Eyes」の生成結果を入力しているユーザもよく見かけるようになりましたよね。
今回はそんな画像解析AIの中でも少し変わっていながらもとても使いやすいアプリを発見したので、その使い方などについてご紹介したいと思います。
🧚いつも通り、記事中でご紹介しているアプリ・ツールはスクリーンリーダー(VoiceOver)で操作できることを確認してから掲載しています。
PiccyBotの基本情報
詳しい使い方・使い勝手についてご説明する前に、まずは今回ご紹介する画像認識アプリ「PiccyBot」の基本情報と機能概要、他の画像認識アプリとの違いなどについて記載します。
基本情報
- アプリ名
- 「PiccyBot」(ピクシーボット)
- 開発者
- Sparkling Design and Infotech Private Limited
- ストアリンク
- AppStoreページ
- 価格
- アプリ本体: 無料
- 有料版(サブスクリプション): 月額¥400
- 有料版(ライフタイム): ¥2,200
アプリの機能概要
いわゆる画像認識アプリの一種で、撮影した写真や保存済みの画像を渡すことでその説明を生成してくれるというものです。
また一度生成された説明文に対して追加で質問を送信することもでき、移っている人や物の詳しい情報について深堀していくことができます。
月額¥400のサブスクリプションまたは¥2,200の買い切りプランに登録することでより多くの機能を解放することができるようになっていて、生成された音声の共有、音声の種類や説明文の長さなどをじゆうに設定することも可能となります。
PiccyBotの特徴
画像認識アプリの一種であるPiccyBotですが、他のアプリとは大きく異なっている特徴がいくつかあり、かなり変わったアプリになっています。順番に診ていきましょう。
- Point 1: 説明文が音声データとして出力される
- 他のアプリではテキストのみ、またはテキストと音声の組み合わせで画像を説明する場合が多いかと思いますが、PiccyBotでは最初の1行を除き全ての説明が音声データとして出力されます。
- なお説明文を読み上げてくれる合成音声が非常に特徴的で、人が読んでいるのではないかと思うほどリアルでありながら、何故かとても外国語鉛になっているものが使われています。
- この合成音声については有料版に登録することで変更することができるのですが、残念ながら現状日本語に対応しているのはデフォルトの「Alloy」のみのようです。
- Point 2: 無駄な情報・妄想がとても多い
- 本来あまり良いことではないのですが、このアプリでは説明文にあえて必要のない情報や激しい妄想を多分に含めているようです。
- 例えば下記の画像について生成されたこちらの音源ですが、「どうしたらただのイラストからそこまで妄想できるのか」というほど想像力豊かな説明になっているかと思います。
- なお有料版ではこういった無駄な情報を省くための「音声の性格」という設定項目が用意されているのですが、こちらをオフにしていると説明文が途中で切れてしまうという不具合があるようです。
- Point 3: 追加の質問ができる
- このアプリの一番の特徴は、ChatGPT 4を搭載していて、画像に関する追加の質問にも答えてくれるという点です。
- 説明文が生成された後の画面には「この画像には何がありますか?」と書かれたテキストフィールドが設置されており、そこから「画像に移っている人の髪型は?」や「その猫の特徴を教えて」などと質問を送信することで、新たに説明文を生成してくれます。
- この機能は従来の画像認識アプリには搭載されていなかったものであり、画像内のありとあらゆる情報を得られる、非常に便利な要素になっています。
PiccyBotの基本情報・機能概要については以上です。次項からは本題、アプリの使い方についてご説明していきたいと思います。
PiccyBotの使い方
A. ダウンロード
まずはPiccyBotのダウンロード・インストール方法についてですが、こちらのアプリは通常通りAppStoreでリリースされているので、全項の「基本情報」欄に記載のURLから直接ダウンロードできるようになっています。
なおアプリ本体は無料で、各種設定の調整・音声データの書き出し以外は無料版のままで利用することができます。
AppStoreからアプリをダウンロードできたら、起動してみましょう。
B. 画像の選択・解析
アプリの初回起動時には少し英語で説明が表示されますが、チュートリアルなどはなく、すぐにアプリのトップ画面が開くようになっています。
トップ画面には基本的にボタンが2つ(初回起動時は1つ)しかなく、そのうち「Camera」というボタンを選択すれば認識させたい画像を撮影/選択するためのポップアップが開くようになっています。撮影の場合は「Take Photo」、保存済みの画像を使う場合は「Choose Photo」を選んで進んでください。
画像の撮影/選択が終わり、その後の編集画面で右下の「完了」を押下すればサーバ側に画像が送信され、認識作業が始まります。なお、認識の各段階はテキストで表示されるようになっているので、「サーバに送信中..」や「認識中..」など、進行状況がVoiceOverでも確認できます。
認識が終わると自動的に説明文の再生が始まり、そのまま最後まで流れ続けます。最初に少しご説明した通り、説明文のテキストは何故か1行のみ表示されます。
なお、優良プランに登録している場合、説明文の再生後に「Settings」から「共有」へ進むと、生成された音源をそのままダウンロードすることもできます。
C. 追加質問
前項でご紹介した通り、生成された説明文に対しては追加で質問をすることができるようになっています。
画像の説明が再生された後、画面中央のテキストフィールドを選択して、より詳しく知りたいことを入力してください。質問の内容は投稿した画像に関するものであればなんでも対応しているようなので、「写っている男性の髪型は?」や「背景の街並みについてもう少し詳しく教えて」など、気になることを自由に聞いてみましょう。
質問を入力し終わったら、「送信」ボタンに置き換わっている改行キーを押下して投稿しましょう。画像の送信時と同じくらいの時間がかかった後、追加の説明が読み上げられます。
まとめ
さて、今回は一風変わった画像認識アプリ、「PiccyBot」についてご紹介しました。
何故か音声が外国語訛りだったり、説明文の大半が無駄な情報だったりと不思議なところが多いですが、どこまでも詳しい情報を深掘りして聞いていくことができるところなどは非常に便利なので、視覚障害者のiPhoneユーザはぜひ試してみてください!