目次
AI
「AI」という言葉自体は、見聞きした経験がある方が殆どだと思います。チェスや囲碁といった知的遊戯の世界でも、「AI」という言葉が聞かれるようになりました。但し、実際に「AIって何?」と聞かれて、答えられる方は少ないのではないでしょうか。
「AI」は「Artificial Intelligence」の略称で、日本語では「人工知能」と和訳されています。しかし、「人工知能」という和訳を見ても、具体的なイメージを持つのは難しいと思います。
実は、この「AI」という専門用語・技術用語は、2019年現在でも明確な定義が定まっていません。理由としては、「AI」開発者や研究者それぞれで、目的・目標とする「AI」の解釈や認識に揺らぎがある事。また別の理由として、ITの進歩に伴って、「AI」と見做されるシステムの内容が刷新されている事等が挙げられます。
それでも、敢えて定義するならば、「人工的に作られる人間と同等、或いはそれ以上の知能」とする見方が大局的です。そして、より技術的な言い方をすると、「人間にしかできない高度な知的能力(認識、推論、判断等)を可能にする、コンピュータを中心とした人工的な技術やシステム」となります。
ちなみに、最近よく耳にするようになった「AI」ですが、その開発・研究の歴史は意外にも長く、現在は第三次AIブームと呼ばれています。「AI」の歴史を紐解くと、実に1950年代から開発・研究が進められており、
- 第一次AIブーム(1950年代~1960年代):明確なルールをAIに与えて、推論や判断を可能とする
- 第二次AIブーム(1980年代):専門家の知識をデータ化・ルール化してAIに与えて、推論や判断を可能とする
という、より高度な知識をAIに与えるという変遷を経て、現在(2010年代~)の第三次AIブームに至ります。
第三次AIブームの火付け役は、ビッグデータとディープラーニングです。
ビッグデータという文字通り、従来では考えられない量と質を担保したデータを、「AI」に与えられるようになりました。そして、そのビッグデータに基づいて、「AI」が自ら規則性やルールを学習する事により、高精度の推論や判断を行えるようになったのです。
この高精度な推論や判断の結果が、冒頭で書いたチェスや囲碁のような知的遊戯への応用です。
また、高精度な推論や判断の応用は、他にも
- 画像や映像内に表示されている物体や人物の識別(画像認識)
- 人間の発話を聞き取った上での内容の理解(音声認識)
- ロボットや自動車の自動制御(自動運転)
- 人間の文章の要約や翻訳(自動要約・機械翻訳)
などなど、今や大変多くの分野で活用されています。
例えば、PCやスマートフォンの予測変換やGoogleの検索結果のカスタマイズも「AI」に基づく物です。これ等の活用例や具体例を見ると、「AI」が如何に私達の生活に貢献しているか、よく理解できるかと思います。
ちなみに、「AI」とロボットは、イコールではありません。極々簡単に表現するならば、「AI」は脳で、ロボットは胴体です。そして、ロボットは入力された命令しかこなせないのに対し、「AI」は上述の技術によって自ら学習して進化する事ができます。SFのような話になりますが、「自ら学習して進化」できる「AI」が、いずれ人間の思考力や知的能力を上回り、シンギュラリティ(技術的特異点)が起こると提唱する開発者・研究者も存在します。今はまだ、人間が「AI」を活用する(=使う)段階ですが、将来的には人間と「AI」が共生する時代が訪れるかもしれません。
ディープラーニング
「ディープラーニング」という言葉も、最近ではにわかに注目を浴びるようになっているので、見聞きした事がある方もいるかもしれません。しかし、「具体的に『ディープラーニング』を説明して欲しい」と言われて、説明できる方は少ないかと思います。
「ディープラーニング」とは、日本語で「深層学習」とも呼ばれる、プログラムやAIの学習方法の一種です。一種という事で他にも学習方法は様々あり、まずは「ディープラーニング」とも関連深い「機械学習」について解説します。
「機械学習」(マシーンラーニング)も、「ディープラーニング」同様、プログラムやAIの学習方法の一種です。
この機械学習は、
-
- 教師なし学習
- 教師あり学習
- 強化学習
の三種類に大別できます。
教師なし学習
まず、教師なし学習は、一番シンプルな学習方法です。プログラムやAIにデータのセットを与えて、そのデータの傾向を分析させます。例えば、Amazon等のECサイトの買い物履歴から、その購入者の買い物の傾向を分析するといった事が可能です。
教師あり学習
次に、教師あり学習は、プログラムやAIに学習データのセットと正解データのセットの2種類のデータを与えます。プログラムやAIは、学習データを元にデータの特徴を読み取る事で、正解データを学習します。正解データを学習する事により、未知のデータに関しても予測や判別を行う事ができるようなるという訳です。例えば、迷惑メールフィルタや株価の予測は、メールや株式のデータを基に正解・不正解を学習する事で、判別(分類)や予測をしているのです。
強化学習
最後に、強化学習は、最も発展的な学習方法です。
プログラムやAIにデータのセットを与えて、そこからプログラムやAI自らに設定した課題を解決する行動を実行させます。その行動が望ましい物であれば、プログラムやAIにその事を教えて、更にプログラムやAIにもっと良い解決方法を試行錯誤させます。この反復で、プログラムやAIは、どんどんより良い解決方法を考え付き、実行できるようになっていきます。この強化学習の代表例が、近年ではAlphaGo(アルファ碁)で、AlphaGo(アルファ碁)がプロ棋士に次々勝利したのは記憶に新しいかと思います。
さて、ここまで「機械学習」(マシーンラーニング)について解説しましたが、では「ディープラーニング」とはどのような学習方法でしょうか?
実は、「ディープラーニング」は、「機械学習」の四種類目の学習方法に当たります(という考え方が大局的です)。
「AI」の解説で、AIは人間の脳に当たると書きました。
「ディープラーニング」は、まさに人間の脳(の神経回路)をモデルとしたニューラルネットワークという物を、プログラムやAIに組み込みます。このニューラルネットワークは、入力層、中間層、出力層の三層構造で構成されており、入力層と出力層は、文字通りデータを入出力する層です。
肝となるのは中間層で、この中間層が、人間が脳で自動的に行っている認識や判別を司ります。従って、この中間層を多層化する事により、プログラムやAIのデータの特徴(特徴量)の読み取り精度や汎用性は向上して、結果的に出力するデータの予測や判別の精度も向上します。この中間層を多層化した学習方法が、「ディープラーニング」という訳です。
「ディープラーニング」の画期的な点は、中間層の多層化により、
- データの特徴(特徴量)の読み取り
- その読み取りの精度や汎用性の向上
を、プログラムやAIが自ら学習できるようになった事です。
「ディープラーニング」も、今や私達の生活に無くてはならない技術になっており、例えば
- Facebookのタグ付け(写真、特に人物が写った写真のデータ)
- iPhoneやiPadのFace ID(顔の画像のデータ)
- iPhoneやiPadのSiri(音声データ)
- コールセンターでの問い合わせ対応(音声データ)
などなど、幅広く活用されています。
「AI」と「ディープラーニング」による革命の衝撃
「AI」と「ディープラーニング」が革命を起こした、と見聞きしてもパッとイメージできる方は少ないと思います。そこで、本記事から暫く、「AI」と「ディープラーニング」が起こした革命の具体例を解説していきます。
本記事での具体例は、「人間のように思考、予測、回答できる」という観点からの革命として、
- Deep Blue
- IBM Watson
- AlphaGo(アルファ碁)
- 東ロボくん
を取り上げます。
Deep Blue
まず、「Deep Blue」です。
「Deep Blue」を一言で表すなら、チェスの世界チャンピオンという表現が相応しいでしょう。1997年に、当時チェスの世界チャンピオンであったガルリ・カスパロフ氏に勝利を収めて、文字通り新たな世界チャンピオンとなりました。
IBM Watson
次に、「IBM Watson」です。
「Deep Blue」がチェスの世界チャンピオンならば、「IBM Watson」はクイズの世界チャンピオンです。2011年に、アメリカのクイズ番組において、見事に総合優勝を勝ち取りました。(ちなみに、勿論、インターネットには接続していません。従って、インターネットから答えを検索するという事は不可能です)
AlphaGo
続いては、「AlphaGo(アルファ碁)」です。
名前の通り、「AlphaGo(アルファ碁)」は、囲碁の世界チャンピオンです。2016年には韓国で、2017年には中国で、棋士としての最高タイトルである名誉九段を勝ち取っています。
これまでのチェスやクイズでの世界チャンピオンも言うまでもなく偉業ですが、この「AlphaGo(アルファ碁)」は更に驚異的な偉業でした。理由は、囲碁という知的遊戯は、コンピュータやAIが人間に勝る事は不可能な程に高度な物であると、長らく認識されていたからです。従って、「AlphaGo(アルファ碁)」の躍進は、第三次AIブームの大きな火付け役にもなりました。
東ロボくん
最後に、「東ロボくん」です。
「東ロボくん」に関しては、「ロボットは東大に入れるか?(Todai Robot Project)」という公式のウェブサイトもあるので、以下に記載しておきます。
ロボットは東大に入れるか?(Todai Robot Project): https://21robot.org/
上記のプロジェクト名の通り、「東ロボくん」の目的・目標は、ロボット(AI)による東京大学への合格でした。
結果として、「東ロボくん」は東京大学合格の成績を上げる事はできませんでした。しかし、それは飽くまでも総合得点での話です。例えば、数学や歴史といった科目では、「東ロボくん」は合格に充分な成績をあげられています。また、東京大学合格こそ成りませんでしたが、MARCHには合格できるだけの成績もあげられているのです。
上記の通り、「AI」と「ディープラーニング」による革命の一つが、「人間のように思考、予測、回答できる」事です。その結果、高度な知的遊戯での世界チャンピオンやMARCH合格の成績という偉業を達成しています。しかし、驚くべき事に、「AI」と「ディープラーニング」による革命はまだまだ終わりません。
「AI」と「ディープラーニング」による革命が身近に
そこから更に(大きく)一歩進んだ「人間のように対話できる」観点からの革命として、
- ペッパー君
- Siri
- Googleアシスタント
を取り上げます。
ペッパー君
まず、「ペッパー君」です。
ペッパー君がどういった物かについては、ご説明する必要はないかと思います。街中やTV番組で、ペッパー君を見掛けた事がある方は多いでしょう。
ペッパー君は、店頭でのカスタマーサポートやTV番組でのMCとして起用されています。何故かと言えば、ペッパー君は感情を表したり人間と対話して返答したりできるからです。この感情表現や人間との対話・返答こそ、「AI」と「ディープラーニング」に基づく物です。
無機物が人間のように感情を表現したり対話・返答したりできる。これだけでも、十二分な偉業だと思ってもらえるかと思いますが、更に偉業は続きます。更に実用性を追求して辿り着いた先は、小型化です。
その一例が、iPhoneやiPadユーザーならお馴染みの「Siri」です。
Siri
「Siri」の歴史も10年程度で短いようで長く、最初は単純に人間の発話を認識・解析するのみでした。人間が「Siri」にキーワードを投げ掛けて、対象のアプリを起動するといった物です。
しかし、「Siri」も進化を遂げ、声の性別の選択と併せて、アクセントや感情を表現できるようになりました。また、「Hey, Siri」という掛け声でお馴染みの呼びかけに応じた自動起動や対話も可能になりました。この進化の裏にも、「AI」と「ディープラーニング」の技術が関係しています。
Googleアシスタント
Apple社同様に、Google社も、「Googleアシスタント」をAndroid搭載端末に導入しています。
(ちなみに、「Googleアシスタント」はGoogle社の開発ですが、実はiPhoneにも対応しています)
「Googleアシスタント」は、「Google Now」の後継なので、トータルで見るとやはり10年程度の歴史を有しています。前身である「Google Now」は、ユーザーが端末に記録した情報(位置情報、検索情報、メールやカレンダーの情報等)を分析して、ユーザーに最適な情報や検索結果を提供する物でした。その後継である「Googleアシスタント」は、ユーザーと端末の双方向での会話で、これを実現できるようになりました。
それはつまり、ユーザーの発話を認識・解析して、その意味を理解した上で、最適な返答を返せるという事です。
「発話を認識・解析して、その意味を理解した上で、最適な返答を返せる」という点では、最早人間と遜色がないと言っても過言ではないと思います。まさに革命と呼ぶに相応しいこの発明にも、「AI」と「ディープラーニング」の技術が使われているのです。
「AI」と「ディープラーニング」により、「人間のように思考、予測、回答できる」から「人間のように対話できる」までの技術革新が起こりました。この技術革新の流れは、以前の記事で解説した「IoT」と併せて、現在は「スマートスピーカー」にも活かされています。
ここまでの革命は、私達の目に見え易い物でした。但し、本記事で「小型化」という言葉が出て来たように、私達の目に見えない所でも「AI」と「ディープラーニング」による革命は起こっています。
AIチャットボット
ペッパー君、Siri、Googleアシスタントを具体例として挙げました。これ等は「人間のように思考、予測、回答できる」事と「人間のように対話できる」事により、私達個々人の生活を支援してくれています。その特徴から、これ等は「AIアシスタント」とも呼称されます。
この「AIアシスタント」の対象を拡大して、大規模にした物です。
それが、「AIチャットボット」です。
まず、「チャットボット」は、「チャット」(雑談)と「ボット」(ロボット)を組み合わせた言葉で、文字通り「会話を行うロボット」です。その歴史は1960年代まで遡り、当初はロボットが提示する選択肢を選んで、決まった型の会話を行う形式が一般的でした。(余談ながら、このような定義・入力されている会話しか行えないチャットボットは、「AI(人工知能)」と対比して「人工無能」と呼ばれます)
そこから、
- 特定のキーワードに反応して、入力されている回答を返して会話を行う形式
- 過去に行った会話を基に、新たに類似の会話を行う形式
等のチャットボットが開発されていきました。
但し、「特定のキーワード」や「過去に行った会話を基に、新たに類似の会話」という表現が指し示す通り、チャットボットの行う会話にはどうしても限界がありました。
その状況を打破したブレイクスルーこそ、「AI」と「ディープラーニング」です。「AI」と「ディープラーニング」の技術革新により、AIアシスタント同様に、現在はAIチャットボットが開発されています。「人間のように思考、予測、回答できる」事と「人間のように対話できる」事という、「AI」と「ディープラーニング」による恩恵は、チャットボットにとっても大きな躍進に繋がりました。
現在では、「AIチャットボット」により、24時間365日のカスタマーサポートやヘルプデスクを提供している企業も多く見受けられます。また、ウェブサイトだけでなく、TwitterやLINEといったSNSでの問い合わせ対応にも、「AIチャットボット」が導入され始めています。
そして、会話や問い合わせへの回答だけでなく、会話を通じて
- 予約を受け付ける
- ファッション等のレコメンドをしてくれる
- 条件に適した検索を行い、選択肢を提示してくれる
などなど、「AIチャットボット」ができる事の幅も大きく広がっています。
このように「AIチャットボット」は、特にカスタマーサポートやヘルプデスクの分野で、今や無くてはならない存在になりつつあります。これまでは人間が対応しなければならなかった作業をAIチャットボットで代替できるので、
- 省人化やコスト削減に繋がる
- 24時間365日の対応が可能になる
- 今までカスタマーサポートやヘルプデスクに割いていた人員を、他の業務で有効活用できる
- 質問する側も気軽に質問できる
といった、多種多様なメリットが生まれるためです。
更に、「AIチャットボット」が作業を代替するのではなく、支援するという取り組みも行われています。例えば、コールセンターでのオペレーター支援です。オペレーターが電話を受けた際、顧客の会話を文字に起こして、その質問内容に適した回答をリアルタイムで検索・選択して、オペレーターに提示するといった仕組みです。オペレーターの負担を軽減でき、且つ迅速に顧客に回答を提示できるため、まさにwin-winの関係を生み出す支援と言えるでしょう。
AI-OCR
「AI」と「ディープラーニング」は
- 「人間のように思考、予測、回答できる」こと
- 「人間のように対話できる」こと
がポイントでした。
この内、「AIチャットボット」は(1も勿論取り入れつつも、より)2の「会話」や「対話」に重きを置いた物でした。
それでは、より1に重きを置いた、即ち「読み取り」や「認識」に関してはどうでしょうか?
「人間のように思考、予測、回答できる」事、即ち「読み取り」や「認識」の具体例が、「AI-OCR」です。まず、そもそも「OCR」とは何かと言うと、Optical Character Recognition(光学文字認識)の略称です。
「文書や画像データやPDFデータから文字情報を読み取って認識して、文字情報を付与して出力してくれる物」です。そう説明すると難しく感じる方もいるかもしれませんが、実は今では家庭用のプリンターやスキャナーにも付いているような機能です。より高度な精度でOCRを行ってくれる専用スキャナーとしては、富士通のScanSnapやCanonのimageFORMULAが有名です。
その歴史は1910年代まで遡り、1930年代には現在のOCRに関する特許が欧米で取得されています。伝票、帳票、報告書、請求書、契約書、新聞、論文、書籍などなど、私達の生活の中で紙は欠かす事のできない物です。同時に、「ペーパーレス(化)」での業務効率化や働き方改革が謳われているように、そんな紙から如何に解放されるかも私達にとって非常に重要なテーマと言えるでしょう。
それを可能にする技術が、OCRなのです。
但し、チャットボット同様に、従来のOCRにはどうしても限界がありました。それは、チャットボット同様にOCRにも特定の規則を教え込み、その規則に合致した場合にはOCRを行うという仕組みだったからです。
具体的には、
- 文書のレイアウトの解析:文書の用紙サイズから段組みやコラム、表や図、標題やヘッダー等の文字の固まりまで解析する。
- 行の認識:解析した文字の固まりを、1行毎に分解する。
- 文字の認識:分解した行を、1文字毎に分解する
- 文字情報の付与:分解した1文字毎に、OCRが持つ規則との照らし合わせを行い、合致した文字の候補を文字情報として付与する。
というような方法とフローで、従来のOCRは行われています。
この従来の方法やフローでも、定形フォーマットにおける一般的な活字であれば、現在では極めて高い精度のOCRが可能です。しかし、例えば非定形フォーマットやフリーフォーマットにおける手書き文字となると、規則と合致させる事が困難になる事は想像がつくかと思います。非定形フォーマットやフリーフォーマットにおける手書き文字は、同じ文字とは言っても、当然の事ながら文字を書いた個々人によって何もかも異なって来ます。そして、個々人全ての筆跡の情報等を予め規則としてOCRに教え込むのは、まず不可能な事はお分かり頂けるかと思います。
この状況を打破したブレイクスルーこそ、「AI」と「ディープラーニング」です。「AI」と「ディープラーニング」の技術革新により、AIチャットボット同様に、現在は「AI-OCR」が開発されています。「人間のように思考、予測、回答できる」事という恩恵は、OCRに「AI-OCR」という新たな時代をもたらしました。
何故なら、「人間のように思考、予測、回答できる」という事は、規則外の文字が出て来ても新たな規則として「学習」や「推測」ができるという事だからです。これにより、現在では、非定形フォーマットやフリーフォーマットにおける手書き文字に関しても高い認識精度(99%以上!)で文字情報を付与する事が可能になっています。文書のレイアウトや書き文字の種類によらず、「AI-OCR」は高精度で読み取りと認識をしてくれる、まさに万能の技術と言っても過言ではありません。
但し、注意すべき事として、「高精度」と言っても100%ではないという点には留意する必要があります。99%以上の高精度でも、1,000枚当たり約1枚、10,000枚当たり約10枚、100,000枚当たり約100枚……というように、ミスは発生し得るからです。私達が日次や月次や年次で向き合う紙の量を考えると、このレベルのミスでも回避できるに越した事はない事はご納得頂けるかと思います。
勿論、AI-OCR開発者・開発社も、この点に関しては当然理解しており、AI-OCRは現在でも日進月歩の進化を遂げています。認識精度は加速度的に上がっており、将来的には、真の「万能の技術」になる日も訪れるかもしれません。
文字情報の付与という機能や、プリンターやスキャナーに既に搭載されている物という事で、私達が普段意識する事は中々ないかもしれませんが、このような革命の存在もご認識頂けたかと思います。
- 自宅でできる!業務改善ライフハック!~「業務環境」編~ - 2020年5月22日
- テレワークで生産性や効率を維持する秘訣「安定稼働」とコツ7選! - 2020年4月24日
- テレワークの体験レポート 〜 社員 IS の場合 〜 - 2020年3月26日