もはや視覚障害者の必須アプリ⁉️
〜ChatGPTの新機能を詳しく解説〜


先月、2024年12月にAIチャットアプリ「ChatGPT」の有料プランに2種類の新機能が追加されたことはご存知でしょうか。

特別「視覚障害者用」の機能という訳ではないのですが、以前にLUCAがX(Twitter)で感動のポストを投稿してしまった通り視覚補助に非常に役立つ内容となっており、もはや視覚障害者には必須アプリと言えるレベルになっているんです。

そこで今回の記事では、ChatGPTアプリに新しく搭載された2種類の「リアルタイム認識機能」の使い方・活用方法についてご紹介していきたいと思います。

✴︎ 今回ご紹介する機能はどちらも有料機能である「ChatGPT Plus」の一部です。月額¥3,000のアプリ内課金が必要となりますので、ご注意ください。


長毛のトラ猫をスマホで撮影している手元のイラスト。

機能1 リアルタイムビデオ

まずは1つ目の機能、リアルタイムビデオ共有機能の使い方についてご説明します。

なお、下記の機能を利用するためには事前にAppStoreからChatGPTをダウンロードした上で、アプリ内のメニューからChatGPT Plusの月額課金を行う必要があります。

機能概要

リアルタイムビデオ共有機能とはカメラで写しているものをAIがリアルタイムで認識してフィードバックを返してくれるというものです。

カメラを対象物に向けて「これは何?」や「使い方を教えて」などと話しかけるだけで、簡単に詳しい情報を聞くことができます。

操作手順

1. 音声モードの起動
(1) 記事中でご紹介するリアルタイム認識機能はどちらもChatGPTの音声モードに付随した機能です。まずは有料アカウント登録ずみのアプリでチャット画面を開き、中央上部のモデル表示が最新のバージョン(記事執筆時はGPT-4o系)になっていることを確認しましょう。
※「音声モード」とは直接ChatGPTに話しかけ、応答内容を合成音声により受け取ることができる、自然な会話を通してAIチャットを利用できる機能です。
(2) 続いて画面右下にあるボタン(VoiceOverには「音声モードに切り替える」と読み上げられます)を選択します。
(3) 音声モードの初回起動時には応対する合成音声の選択画面が表示されますので、1つずつサンプル音源を試聴しながらお好みの声を探してみましょう。
なお、この画面は一度音声を選択した後でも、音声モード画面右上にある「音声を選択する」ボタンからいつでも呼び出すことができます。
2. ビデオ共有の開始
(1) 無事音声モードを開くことができたら、画面左下にあるビデオアイコンの切り替えボタン(VoiceOverには「ビデオカメラを開く」と読み上げられます)を押下しましょう。
(2) 初回利用時にはカメラへのアクセス許可を求めるダイアログが表示されますので、「許可」を選択して撮影を開始します。
3. カメラで写しているものについての質問
ビデオアイコンの切り替えボタンが選択されている間は常にリアルタイムビデオ共有が有効になっています。試しにカメラで写している者・人物・風景等について聞いてみましょう。
(2) 見えているものについて説明してくれれば、成功です。閉じるボタンを押下するまでビデオ共有・会話の聞き取りは継続されますので、追加で知りたいことがあれば引き続き話しかけてみてください。

ChatGPTで音声モードを起動した時のスクリーンショット。中央には青のグラデーションがかかった円形のデザイン、下方にはビデオ・マイク・3点リーダー・ばつ印のアイコンが並んでいます。

機能2 リアルタイムスクリーン共有

機能概要

2つ目の機能、リアルタイムスクリーン共有ではカメラに映ったものを認識してくれたビデオ共有とは違い、使用中の端末の画面に表示された内容を認識してくれます。

リアルタイムで画面に映っている画像・グラフ・ウェブサイト等について、詳しくフィードバックを受けることができます。

操作手順

1. 音声モードの起動
(1) イデオ共有の時と同様、まずは有料アカウント登録ずみのアプリでチャット画面を開き、中央上部のモデル表示が最新のバージョン(記事執筆時はGPT-4o系)になっていることを確認した上で、音声モードを起動します。
(2) 音声モードの初回起動時には応対する合成音声の選択画面が表示されますので、1つずつサンプル音源を試聴しながらお好みの声を探してみましょう。
なお、この画面は一度音声を選択した後でも、音声モード画面右上にある「音声を選択する」ボタンからいつでも呼び出すことができます。
2. 画面共有の開始
(1) 画面最下部に並んだアイコンの内、三点リーダー(・・・)のアイコン(VoiceOvverには「詳細なメニュー」と読み上げられます)を選択し、表示されたポップアップ内から「画面を共有する」を押下しましょう。
(2) 「画面に表示されるものは、通知も含めて、すべて収録されます。“おやすみモード”を有効にすると予期しない通知が出ないようになります。」という警告文とともにブロードキャストの許可を求めるダイアログが表示されますので、「ChatGPT」のボタンが選択済みになっていることを確認した上でブロードキャストを開始します。
(3) 動画撮影・画面収録の時と同じ、録画開始の効果音が流れれば起動成功です。
3. 画面に映っているものに関する質問
(1) 一度画面共有を開始すると、そのまま別のアプリに移動しても認識・聞き取りは継続されます。
(2) 今画面に何が映っているか、直接聞いてみましょう。
(3) 終了する際にはChatGPTアプリに戻って、画面下部のばつ印のアイコンを選択してください。

色々な活用方法

ここまでChatGPTの2つの新機能について概要・操作方法をご解説してきましたが、ここからはおまけ編、視覚障害者にとってこれらの機能がどのように活用できるかを少し考えてみました。よければご参考にどうぞ。

🅰️ ビデオ共有
・ペットボトル・缶飲料をカメラの前で回しながら、記載された栄養成分表示を読んでもらう
・お店で複数並んだ同じ形の商品を写し、目的のものを探してもらう
・動物園、水族館、博物館などで展示物を写しながら詳しい説明を聞く
※一度認識させたいものを写真に撮り、識別できるまで数秒待たなければならない既存の視覚障害者向け支援アプリと異なり、実際に角度・むきを調整しながらリアルタイムでフィードバックを受けられるため、お店や博物館などでこまめに情報を得たい時に便利かと思います。
🅱️ スクリーン共有
・ウェブサイトに掲載された画像ベースの記事・メニュー表・グラフなどの情報を教えてもらう
・CAPTCHA等セキュリティ目的の認知テストで映っている文字・情報を聞く
※これまで支援アプリで画面に映った情報を認識してもらうためには情報を表示する端末・それを撮影する端末と2台のデバイスを使う必要がありましたが、スクリーン共有を利用すれば1台のデバイスで、カメラの向きや写り方を気にする事なく画面上の内容について確認することができるようになりました。

なお視覚障害者向けの活用方法ではありませんが、「写したコーヒー豆のおすすめの淹れ方を教えてもらう」や「画面上に写した論文を要約してもらう」、「写した数式を解いてもらう」など幅広い応用方法があるようです。


まとめ

さて、今回の記事では先月OpenAIが新しく公開したChatGPTの2つのリアルタイム認識機能についてご紹介・ご解説してきましたが、如何でしょうか。

元々視覚障害者のために開発された機能という訳ではないものの、物体・人物・文字認識と視覚障害者にとって必要な支援技術が詰まっているので、活用方法は無限大ではないかと思います。

継続利用のためにはやや高価なサブスクリプションが必要となってしまいますが、ご興味のある方はぜひお試しください。


*本ページの記載内容に誤りがあれば、メール、TwitterのDMなどでお知らせください。


メールお問い合わせ
Twitter: @naokiluca
↑ホームに戻る