Otter.ai で Zoom 会議(英語)を乗り切る

管理人は外資系企業で働いており、海外メンバーとのコミュニケーションが非常に多い。そんな環境下でヒアリング能力に難アリの私を強力にサポートしてくれる Otter.ai をご紹介。
(あらかじめお断り入れておくが、本投稿は Mac での Otter.ai 使用例となる。それ以外の OS を使っている人には役に立たないかも知れない)

TOC - 目次

聴き取れなきゃ始まらない
Otter.ai
Zoomからの文字起こし
Macでの設定
Zoom設定
Let’s Zoom
最後に

聴き取れなきゃ始まらない

冒頭にも書いたが英語、特に会話力に難がある。
メールでのコミュニケーションはまぁ問題ない。スピーキングは根性で乗り切る。
ヒアリングについては相手方に大きく依存するが、話し方にクセがない、小難しい用語を使わない、マシンガンのように喋らない、の三拍子揃えばまぁ大丈夫。
ただ世の中それほど甘くない。いろんな人がいる。
会話が聴き取れないと当然ながらキャッチボールもできないのでなんとかせねばというところで辿り着いたのが Otter.ai 。
(じゃあヒアリング力を高めろよ、と言われれば返す言葉もないが、50過ぎて英語耳育てるのもタフだしここはテクノロジーのチカラでってことで)

Otter.ai

Otter.ai は一言で言ってしまうと AI を活用した文字起こしツール。

Generate rich notes for meetings, interviews, lectures, and other important voice conversations with Otter, your AI-powered assistant.
https://otter.ai/

音源からリアルタイムでバシバシと文字を起こしてくれる。
引用にもあるとおり活用事例は多々あるのだが、Zoom や Teams のかたわらで Otter を起動しておいき、アンチョコのごとく聞き漏らしたところを確認している。
Otter にはいくつかプランがあり、無料プランも用意されている。ただこの無料プランが絶妙な設定で、特に個人的に問題となるのが1回のセッションが最大40分、月当たり計600時間までという条件。
自分の場合だと600時間だと微妙に足りない感じなのでお布施と思い $12.99/月の Pro プランをサブスクしている。(かといって Pro の 6000時間は余りまくり)
無料プランでも以下で紹介する文字起こしは可能。

Zoomからの文字起こし

組織/企業向けの Business プラン以上であれば Zoom との連携がハナっから提供されるようだが、Pro プランの場合は自力でなんとかするしかない。
管理人は仕事でもプライベートでも Mac Book Pro を使っている。
正直 Mac 以外での事情は分からないが Mac では音源をルートさせるソフトウェアを使えば(ループバックとか呼ばれたりしてる？)、Zoom からの音声を Otter に喰わせて文字起こしできるようになる。

Macでの設定

Zoom や Teams 、それ以外も含めて基本的な設定は一緒。
Otter に音を喰わせるための下準備(設定)をしてから Zoom や Teams で必要な設定をすれば良い。
基本的な設定方法は Otter.ai のブログで公開されているのでそれを参考にしてもらえると良いが、肝心なMulti-Output Device についての説明が割愛されているので補足しながら流れを簡単に紹介する。

音源ルートさせる設定

まずは音源をルートさせるためのソフトウェア(SoundflowerやiShowU Audio Capture, Loopbackなど)のインストールと設定を行う。
いくつか試したが、私の場合 iShowU Audio Capture が安定していたっぽいのでそれにした。

Multi-Output Deviceの作成

次にMac標準アプリの「Audio MIDI設定」(アプリケーション＞ユーティリティの中にあるハズ) で Multi-Output Device を作成する。
Audio MIDI設定の画面左下にある「+」アイコンから新しい Multi-Output Device を作成できる。
新しく作る Device の名前は “Multi-Output Device” ではなくても全く問題ないが、私は上記の iShowU Audio Capture と、普段使いしている会議用スピーカーの Anker PowerConf の2つを組み合わせたので、”iShowU and Anker USB” という名前で Device を作成した。

ちなみに Anker PowerConf は在宅勤務にオススメ。USB、Bluetoothでの接続をサポートし、音声入力出力ともにクリア。ヘッドセットではないので耳の痛みなどもちろんない。

Bitly

サウンド設定

次はサウンド設定。設定内容は Otter.ai のブログに書かれている通り。
サウンド入力には音源をルートさせるためのソフトウェア、サウンド出力には上記手順で作成した Multi-Output Device を指定すれば良い(私の場合は”iShowU and Anker USB”)。

Zoom設定

会議しつつ Otter に音を喰わせるためにZoom設定が必要。
Zoom ではプリファレンスから音声入出力を設定できるが、出力(Speaker)は “システムと同じ”、入力(Microphone)は使用するマイク(私の場合は”Anker PowerConf”となる。

要は自分の声は Anker PowerConf のマイクで拾い、Zoomからの音は iShowU 経由で Anker PowerConf のスピーカーと Otter に出力する感じ。Otter も出力先となることで、Otter が文字起こしをしてくれる。
Zoomの設定を紹介したが Teams なども音声入出力設定できるので設定要領は同じ。

Let’s Zoom

ここまでの設定が終わったら後はZoom会議。
Zoomと並行して別ブラウザで Otter.ai を開き、Otter で録音開始すると文字起こしが始まる。とても愉快。
文字起こしされても小難しい英語でよく分からない場合は DeepL にコピペしてダブルチェックしたりしている。
Otter.ai と DeepL の繋ぎも自動化できれば良いのだが、まぁそこまで困っていないので調べてはいない。
Zoom からのリアルタイム文字起こしの例ではないが Otter.ai のブログでも紹介されている運用イメージはこんな感じ。

How to Transcribe Any Video/Audio with Otter.ai

録音終了すると音声と文字起こしされたテキストが保存されるので、あとで確認することもできる。

最後に

今回は実際に私が使っている方法をご紹介したが、この方法だと”自分の声が文字起こしの対象にならない”、という問題がある。
なんかしらの設定の問題かも知れないが、「相手の声の文字起こし」という最大の目的は達成できてるので細かいことは気にしていない。(自分の英語が正しく文字起こしされないを見るのも切ないのでちょうど良い)
Otter.ai はある程度ローカルアクセントにも対応しているようで、こいつクセ強っと思っていてもそれなりに文字起こししてくれる。
もちろん相手が誰であっても完璧な文字起こしではないので、脳内補完はある程度必要だがないより全然マシ。
Zoom や Teams などの他にも、録画、録音されたものやYoutube 動画など音源となるモノであれば基本ナンでも文字起こししてくれるのでオススメ。