LAPRASポートフォリオタグの分類実験とパイプライン設計

はじめに こんにちは、LAPRASのAILABチームです。今回は池・田嶋・森元で、LAPRASポートフォリオのタグをエンジニア関連のタグ(エンジニアタグ)とそうでないタグ(非エンジニアタグ)に分類する分類器を検討してみました。ここではその実験の詳細と、また再現性のある方法で分類器を得るためのパイプラインについて検討した内容をまとめます。 タグ分類 現在のLAPRASポートフォリオ上では図のようにユ …

求人のレベル判定に関する実験まとめ

はじめに こんにちは、LAPRAS Researchチームの池・森元です。LAPRASでは最近、転職活動支援の一環として新機能のJOB LISTや転職支援サービスのLAPRAS CAREER β版をリリースしています。これらに伴い、私たちResearchチームでは、人と求人のマッチングアルゴリズム開発に注力しています。 人と求人のマッチング時には転職希望者と求人のレベル感をマッチさせる必要がありま …

2020-09-01

ツイート内容に基づく職業予測

こんにちは,松野です.本記事では,ツイートの情報からユーザーの職業を予測する実験を行った結果を紹介します. はじめに LAPRASではインターネット上に公開されているオープンデータを基に機械学習や自然言語処理の技術を用いてユーザーのスキルや志向性を分析し,それを活かしたマッチングシステムを作っています. そういった分析に用いる基礎技術の一つとして,本記事では職業予測の実験に取り組みました. 実験設 …

2019-11-11

係り受けに基づく日本語単語埋め込みを用いた係り受け解析

こんにちは,LAPRAS株式会社の松野です.本記事では,係り受けに基づく日本語単語埋め込みを使って,自然言語処理の主要なタスクである係り受け解析の実験を行った結果を紹介します. *一部記事内容に誤りがありました.実験でつかったデータセット UD_Japanese-GSD のライセンスについて 「CC BY-SA(商用利用可)」と書いていましたが,「現状では CC BY-NC-SA(商用利用不可)で …

係り受けに基づく日本語単語埋め込み

こんにちは,LAPRAS株式会社の松野です.この春に奈良先端科学技術大学院大学(NAIST)を修了し,入社しました.大学院では自然言語処理学研究室で構文解析を研究していました. はじめに 以前,弊社アルゴリズムエ“ぬ”ジニアの鈴木が埋め込み手法についての記事を書きましたが,今回私が扱うのも埋め込み手法に関わる内容です. 今回,私は(Levy et al., 2014)の「Dependency-Ba …

2019-05-09

2019年現在の文・文書生成に関してのまとめ

LAPRAS の森元です。AI LAB でのはじめての投稿になります。私は、修士課程・博士課程を通して自然言語処理学の研究をしてきました。特に推論や因果関係に興味があり、主に含意関係認識の研究を行ってきています。先月4月よりリサーチャーとして LAPRAS に入社しました。 本記事は、2019年4月現在の文自動生成に関してのサーベイを行った結果をまとめたものです。 はじめに LAPRAS の提供し …

有限状態トランスデューサによる日本人名の構造化

scouty の高濱です。本記事では、日本人の名前の構造化のために、自然言語処理における古典的な手法である有限状態トランスデューサ (Finite-State Transducer; FST) を用いた例を紹介します。本記事で紹介するライブラリの実装や本記事のドラフトは、scouty インターンの Derick によって作成されました。 Derick による本記事の英語版も同時に公開されていますの …

Poincaré Embeddings による職種の類似度計算とその利用

scouty アルゴリズムエンジニアの高濱です。外部への情報発信はこの記事が最初なのでこの場を借りて自己紹介させていただきますが、私は scouty 代表の島田、リードエンジニアの伊藤と京都大学工学部情報学科での同期で、京都大学大学院情報学研究科鹿島研究室で修士課程を修了した後、株式会社リクルートホールディングスを経て scouty に入社しました。代表的な著作物は [Takahama et al …

RNNで言語モデルを作る – 実装編

代表の島田です。前回の記事 RNNで言語モデルを作るための理論 では、言語モデルを作るという目的で一般的なRNNの構造についての解説を行いました。それを踏まえて、今回の記事では Python で実際に言語モデルを実装し、その言語モデルを用いて自動で生成された文章の内容を確認してみます。 scoutyでもRNNは今後文生成や、スカウトメールの文面と返信率の相関性検証などに使っていこうと考えている技術 …