2011年7月18日

YouTube、日本語動画に自動で字幕つけられる新機能

今年の2月にお客様に同行した2011 Mobile World Congressの中で、会議開催にあたって日本の各社メディアが真っ先に取り上げたのがNTT Docomo提供のモバイルによる同時通訳サービスでした。このサービスはGoogle翻訳を取り入れ実現していることも当時話題になりました。実際に私もデモを目の当たりにして「ここまで進んでるのか…」と驚いたものです。

デモのみならず、以降も市場への積極的な適用が相次いでいることは、最近Google翻訳のニュースが報じられる頻度を見れば一目瞭然でしょう。そしてまた、新たにYouTubeで字幕へ適用され、自動翻訳技術が提供できる可能性はさらに広がりを見せているようです。


YouTube、日本語動画に自動で字幕つけられる新機能
cnet Japan 鳴海淳義 (編集部) 2011/07/15 11:55

グーグルは7月14日、YouTube動画に自動で字幕をつける「自動キャプション機能」の日本語版を公開した。音声認識技術を使って日本語の動画に自動で字幕がつけられるようになった。自動翻訳機能も組み合わせると、手間をかけずに多言語の翻訳字幕もつけられる。

 YouTubeにアップロードされる動画は1分間に48時間にのぼる。この膨大な量の動画を広く視聴してもらうために、グーグルは3年前からキャプション機能の開発に取り組んできた。キャプション機能を実装することで、検索性を向上させること、言語の壁を越えること、耳の不自由な人にも楽しんでもらえるようにすることが可能になるという。

 たとえば東日本大震災の被災地である南相馬市の桜井市長が語るYouTube動画は、英語の字幕がつけられたことで、世界中に発信され、多くの関心を集めた。  ただし字幕の作成と編集は煩雑な作業を要する。グーグルは「キャプションエディター」というツールを実験的に提供しているが、字幕テキストと音声のタイミングをあわせるのが難しいという。

 そこで1年半前に、キャプションの自動同期機能を用意した。テキストデータをアップするだけで、音声認識技術を使って、動画と音声が自動的に同期するというものだ。この機能は2011年3月から日本語にも対応。震災関連の動画に素早くキャプションをつけられるように開発された。

 YouTubeの字幕に関する最新のテクノロジが、今回発表された自動キャプション機能だ。音声認識技術を利用しているため間違いも発生するが、1年前から提供されている英語版では継続的な開発により、字幕内容の間違いが20%減少しているという。

NHKのニュース動画の再生画面で「音声を文字に変換」ボタンを押すと、音声認識技術により日本語字幕が自動で表示されたNHKのニュース動画の再生画面で「音声を文字に変換」ボタンを押すと、音声認識技術により日本語字幕が自動で表示された

 日本語版がリリースされたことで、日本語の音声が入っている動画であれば、自動で日本語字幕が入るようになった。YouTubeの視聴画面にある「cc」というボタンを押すと表示される。自動翻訳ボタンを押せば、そのまま多言語字幕の表示も可能だ。

 この機能は現在YouTubeにアップロードされている4000万点の動画で利用できる。自動で字幕がつけられた動画はすでに2300万回視聴されている。ユーザーからの注目度も高く、手動で字幕が作成された字幕の数も3倍に増えたという。

 YouTubeプロダクトマネージャーのブラッド・エリス氏は、「自動キャプション機能により日本国内にあるコンテンツを海外にも発信できるようになる。自動翻訳を使えば日本語がわからないユーザーにも届く。この新機能がYouTubeのユーザー体験を向上させることを期待している」と述べた。


自動翻訳を自動通訳へと発展させていく時にネックになるのが、OCR技術(Optical Character Recognition/光学式文字読取装置)であることは以前にも書きました。オリジナルが音声の場合には、OCRの代わりに発話内容を文字に起こすことが必要になってきます。音声認識の技術は近年格段に進んでいるようで、翻訳仲間のなかには積極的に音声自動認識ソフトを利用して翻訳時間の短縮に成功している人もいます。(翻訳文を自分でしゃべって音声認識ソフトに文字おこしさせます。)

こうした流れを受けて、最近の各所で開催される翻訳関連セミナー等でも音声自動認識ソフトは、CAT Tool(Computer Aided Translation Tool )と並んで取り上げられるメジャーなトピックになっています。

このニュースで報じられる新機能では、日本語での音声認識で一定の水準が達成できたことを示しています。そこから翻訳字幕を表示させるには、文字に起こされた文章を自動翻訳機(この場合Google翻訳)にかけた結果を表示させればよいだけです。

さらにここから自動通訳の段階に持って行くためには、翻訳された文章を読上げる機能が必要になります。これは、英語であればフリーウェアでも驚く程のクオリティーのものが出ており現在の技術レベルでほぼ問題ないでしょう。日本語の読上げソフトでも、合成音声で非常に自然に読上げてくれるソフトはすでに流通しています。

ただ実際には、自動音声認識段階では個人の発音やしゃべり方の癖などのサンプルを記憶させるなど、微妙な設定作業もかなり必要なようで、製品をそのまますぐに利用することは難しいと聞いています。

実際に下記に字幕/翻訳の両方を付けられるYouTubeを貼り付けていますので、興味のある方は体感してみて下さい。(右下の「CC」ボタンをクリックすると字幕表示/字幕変換用のメニューが出てきます。)




ある一定の水準以上の機能を作り上げてしまえば、たとえそれ1つでは完璧な機能を提供することは出来なくても、他の技術と組合わせることでサービスとして提供できるもののバリューは増幅されます。

逆に適用範囲を絞ることで随分効果的な使い方を考えることもできます。例えば、天気予報や株価情報、ニュースなどの比較的発話に揺れのないものは、完璧な翻訳字幕は無理でも読み手が積極的に理解しようとする姿勢によって十分に趣旨の伝わる内容になると思われます。

今回は音声情報がオリジナルの自動通訳の話題でしたが、自動翻訳も自動通訳もさらに目に見える形で翻訳・通訳市場へじわじわと食い込んでくることは確実のようです。