人材エージェントの負荷を大幅軽減。日本語の構文解析が革命をもたらす

これまで困難とされてきた日本語の構文解析を、他社に先駆け実現したDaXtra社。それにより人材会社における、求職者の履歴書・職務経歴書の管理にかかる負荷削減に成功した。同社が開発した構文解析エンジンは、ポーターズ社が提供する、レジュメ解析自動取り込みサービス「PORTERS IMEX CV-Parsing」にも用いられている。その技術力の秘訣や、目指すビジョンについて聞いた。

日本語をふくむ35カ国以上の言語に対応する解析ソフト

まずDaXtra Technologies Asiaの概要について教えてください。

DaXtra Technologies Asiaは2002年、イギリスで設立したソフトウェア開発会社のアジアを管轄する香港法人です。イギリスの本社はCVの解析やデータベースの比較など、これまで人が行っていた作業を代替するようなプロダクト開発を手掛けています。15年以上にわたってAIやマシンラーニングの技術に携わり、まずは英語の解析ソフトの開発に成功。現在は35カ国語以上に対応しています。私の所属する香港法人はアジア全域をカバーしており、日本にも昨年(2017年)法人を設立いたしました。

CVからの情報抽出の技術は、プロダクトでどのように用いられているのでしょう。

AIが情報抽出するだけではなく、詳細な項目を記憶させることで、より細かなサーチができます。もしプロジェクトマネージャーを探しているならば、キャリアごとの詳細な検索も可能です。求人媒体を通して候補者を検索する場合は、その検索項目をわれわれのソフトウェアに組み込むこともできます。

外部システムとの連携も積極的に行っています。

はい。ポーターズ社をはじめとした、150以上のRMS(Relationship Management System)やCRMシステム、150以上の求人媒体と連携を進めています。目標としているのは、それと同じくらいの数の言語に対応した情報抽出や、顧客が利用しているCRMシステムと連携することです。

御社の構文解析の技術は、どのように進化してきたのでしょうか。

設立当初はCVのサマリーを作成するのみでしたが、現在はより複雑なデータに対して、開発したコンポーネントや我々のメインソフトウェアであるDaXtraStylerなど、ほかの技術と組み合わせてデータの抽出、統合が可能になりました。例えば候補者から受け取ったCVから情報を読み取り、そのままクライアントへ提出できるような概要の作成も可能です。

構文解析の仕組みはどのようになっていますか。 

この度、ポーターズのHRビジネスクラウドのサービスとしても採用された弊社のParsing技術についてご説明します。そもそもParsingとは、単語を認識して抽出する機能が前面に出ていますし、それも間違いではないのですが、DaXtraのCV Parsingは次のような処理をしています。

まずは文書全体をゾーニングしています。平たく言えば、コンピュータが「あ、ここは求職者の氏名や住所など、個人情報がまとまってるエリアだな。ここは過去の職歴が書いてあって、この領域はフリーテキストだな」というイメージでゾーニングをしています。この領域は、膨大なデータを基にした機械学習(deep learning)の技術を活用しています。弊社は毎月、約6000万枚以上のCVをParsingしているので、ここのデータ量は相当なものです。

つまり、ゾーニングをしっかりとすることで、例えば職歴に「開発」という記述があれば、それはSkillや経験として認識します。しかし、勤務地に「開発センター」とあっても、それはSkillとして拾わない、などの処理が可能になっています。 単純に言葉を認識して拾うだけでなく、内容をちゃんと認識したうえで抽出しているので、OCRなどの単純な読み取りと違って、精度が劇的に上がるんです。

サーチ機能についても詳細を教えてください。

顧客のデータベースへ接続して情報を抽出し、インデックスを作成して、候補者の検索を行えます。その情報を元に、サーチした候補者を求人情報へつなげるなど、ショートリストの作成が可能となっています。もしデータベースに該当する候補者がいなくても、さまざまな求人媒体から適格な候補者のサーチができます。これにより、自社のデータベース内の候補者と、外部で該当する候補者との比較も可能です。順位付けもされるので、最も適格な候補者は一番上にリストアップされますし、この情報を元に内部の候補者で済むのか、外部調達する必要があるのか査定できます。

AIを改良し日本語の構文解析精度を向上

日本の人材紹介会社は、海外の同業者とはかなり手法が違います。例えば香港の人材会社が求めているCVの構文解析と、日本の人材会社が求めているそれは違う場合があると思うのですが、これに関してはいかがですか。

私の視点では、求められる構文解析の内容は同じです。解析のアウトプットはXMLで、これは世界中どの顧客も同じです。我が社の構文解析の強みは、内容が多少異なっても情報の抽出が可能なこと。異なる情報をハンドリングして、統一したスタンダードに持っていくことができます。

構文解析は、必要なものを様々な手法で組み替えることが可能です。データを利用してデータベースに蓄積することも可能ですし、存在するデータの活用方法は無限です。弊社のCapture製品は既に日本で利用されていますし、英国やアメリカ、オーストラリアで行ってきたこととさほど変わりません。

日本語がそのほかの言語と全く特性が異なることも承知した上で、今後の日本語に対応する製品改良のスケジュールはいかがですか。

AIは常に同じ順番で抽出を行っているわけではなく、該当者の出身国などにより情報が異なってくるので、文化や言語、習慣によって情報を振り分ける能力を学習しています。日本で言えば、1万程度のサンプルを学習させ、一定の正確性が見られたら、AIが日本語を正確に読めると判断するのです。正確性で言えば、日本語の解析は英語には劣っているので、一定の正確さが確約されるまで改良を重ねていくしかありません。

将来的には、抽出が正確でない場合や、人が読めてもAIが抽出できないファイルなどの情報を、英国にある弊社の研究者チームに送信し、どこで間違ったのか分析していきます。また、顧客からどの領域を求めるのかヒアリングを行い、AIの改良を重ねていくことになるでしょう。

御社は積極的にAI活用をしていますが、解析の正確性に活用されているということですね。

DaXtraのテクノロジーはAIと機械学習に立脚しており、15年以上も独自のAIエンジンを活用しています。これによって、単なる履歴書の中の情報抽出ではなく、書き手の意図を理解した抽出を行っています。

また我々のAI技術は、自然言語による候補者検索だけでなく、求人票要件と候補者のマッチングにも使われています。これによって競合他社よりも早く、的確に最適な人材を推薦できることを可能としています。

では、御社の目指すビジネスのゴールを教えてください。

弊社のイギリス本社には研究者と営業チームがあり、アメリカの東西海外とドイツにも支社ができました。公式ではありませんが、ロシアにも代理店があります。そして香港、オーストラリアに次いで、日本でも2017年からビジネスを開始したところです。

将来的には若い技術者を日本に派遣し、日本チームのサポートに入る予定です。課題はサポートチームの質を上げることです。既に採用や研修のプロセスに入っており、サービスを24時間年中無休で提供できるよう、外部委託会社と調整中です。

ありがとうございました。最後に読者へメッセージをお願いします。

技術の変化は、恐れるべきものがあるのも事実です。重要なのは、DaXtra社は長年培ってきた技術を利用しているので、データは安全に活用されると理解していただきたいですね。