ResSys 2024 流し読みメモ(Session 2: Bias and Fairness 1)

RecSys 2024 — Session 2: Bias and Fairness 1 - RecSys – RecSys

Bias and Fairness。ますます重要になってきそうなトピックだけど、どのあたりがよくある課題感か、具体的にどう評価どうするのか、あたりがわかっていないので見てみたい。

FairCRS: Towards User-oriented Fairness in Conversational Recommendation Systems

https://dl.acm.org/doi/10.1145/3640457.3688150

  • CRSのデータセットを見ると(ReDial / TG-ReDialという映画推薦のCRSのデータセットがあるらしい)、一部のユーザーがすごく利用しているというロングテールの構造になっている
  • データが多いと性能が良く、データが少ないと性能が低いのは不公平なので、データが少ない場合の性能を向上させたい(データが多いひとの性能を下げるのは簡単だが、全体として高品質にしたい)。要は非アクティブユーザーの精度を上げたいという話
  • Diversity Embedding(アクティブユーザーの埋め込み表現)と、Similarity Embedding(関心が近い非アクティブユーザーの埋め込み)をもとのembeddingと混ぜ合わせることで性能を上げている
  • ランキング学習の損失に、アクティブユーザー群と非アクティブユーザー群の性能差を入れている(これ、要はデータが多い人の性能を下げている?)。トレードオフパラメータをはさんでLrec + lambda * Lfaireみたいな。Lrecがどうも独自の定義っぽいのだけど、ここがなぜかはよくわかってない
  • アクティブユーザー群と非アクティブユーザー群の性能差で公平性を評価している。公平性は当然上がるけど精度が下がるのかなとおもったら、精度もだいたい上がっていた
  • 公平性を損失にいれる理由が読み取れなかったけど、たぶん性能が良すぎるケースを防ぎたいのかもしれないと思った

27min

AMBAR: A dataset for Assessing Multiple Beyond-Accuracy Recommenders

https://dl.acm.org/doi/10.1145/3640457.3688067

  • 音楽推薦ドメインにおけるBeyond-Accuracyな推薦のうち、特に公平性に着目した検討を実現するためのデータセットの提供
  • 既存のデータセットではユーザー/アイテムの属性情報が不十分、あるいは整理されていないということで、名称非公開の音楽配信サービス(推薦もあり)からAPIの提供を受けて、仮名化やらなにやらしたあとに属性情報(年齢、性別、居住地)をきれいに補って提供したということらしい
Do Recommender Systems Promote Local Music? A Reproducibility Study Using Music Streaming Data

https://dl.acm.org/doi/10.1145/3640457.3688065

  • 音楽ストリーミングサービスの推薦における「アルゴリズムバイアス(実際の視聴履歴と推薦で、ミュージシャンの出身国の割合に差が生まれること)」の多面的な評価
  • もともと似た検討があったらしく、それを更に詳しくしたという話の様子。新しいデータセットで(Deezerデータセット。公開されている)、パラメータをあれこれ変えながら、かつ出身国のラベル付の誤りの影響を考慮

9min

Fair Augmentation for Graph Collaborative Filtering

https://dl.acm.org/doi/10.1145/3640457.3688064

  • GCF(Graph Collaborative Filtering)におけるフェアネスの議論
  • 評価は、異なるユーザグループ(たとえば男性と女性や、高齢層と若年層)での性能差で検証
  • グラフニューラルネットワークについてまるで理解できていないが、エッジをいじるって話が書いてあったので、要は前提にグラフ構造があって(たとえばユーザーと閲覧したアイテム)、それ自体をいじる、つまりたとえばランダムに閲覧履歴を追加するようなことをするのかも?と想像(完全に想像)
Enhancing Recommendation Quality of the SASRec Model by Mitigating Popularity Bias

https://dl.acm.org/doi/10.1145/3640457.3688044

  • ドイツの公共放送(第二ドイツテレビ、ZDF)がストリーミングサービスで、視聴後に他の動画を推薦する枠の改善に関するもの
  • Self-Attention based Sequential Recommendation model (SASRec)を使っていて、ビジネスKPIは良かったんだけどポピュラリティバイアスが強く、公共放送としてはあまり望ましくない状態だったとのこと
  • 「損失関数をBCEからgBCEに(gBCEはBCEを負例に重み付けできるように拡張したやつらしい)」「負例のサンプリング方法の変更」「top-k ネガティブサンプリングの導入」の三点でポピュラリティバイアスを軽減しつつビジネスKPI(クリック/視聴量)を増やした
  • 要は負例に人気アイテムが登場しやすいようにして、かつ負例に重み付けすることで、掲出が偏らないようにしているっぽい。これでクリックが増えるのは不思議・・・
Putting Popularity Bias Mitigation to the Test: A User-Centric Evaluation in Music Recommenders

https://dl.acm.org/doi/10.1145/3640457.3688102

  • 音楽推薦、特にリーンイン探索(積極的にコンテンツを探索・発見しようとしている状態。プレイリストの作成や新しいアーティストの発掘など。その逆はリーンバック設定)におけるユーザーがにおけるポピュラリティバイアスの緩和.....についての、人間の主観的な感想についてのアンケート評価
  • 40人の参加者に対して、3つの異なるロジックで作成された推薦リストを示し、それぞれから5曲を選択させる。推薦に対する印象をアンケートで評価
  • ユーザーの満足度を高めるためにはFamiliality / Discoveryのバランスが重要らしい
Not All Videos Become Outdated: Short-Video Recommendation by Learning to Deconfound Release Interval Bias

https://dl.acm.org/doi/10.1145/3640457.3688113

  • 短尺動画におけるコンテンツの賞味期限に着目した検討。データセットはKuaishou提供。中国でtiltokと並ぶショート動画のサービスらしい
  • サービス設計として一般に新しいコンテンツが多く目に触れることが多く、結果として公開からの経過時間が短い動画が優先的に推薦されるバイアスが乗る(Release interval bias)。すべてのコンテンツがrecency sensitiveな訳ではないのでこれは問題
  • 学習の際はユーザー/アイテムのマッチングのモデルとアイテムのrecency sensitivityを捉えるモデルをいっぺんに学習させる。これでモデルからは「recency sensitivityも踏まえたうえでのスコア」が出てくるようにする(賞味期限の短いコンテンツは時間経過に応じて急激にスコアにマイナスがかかるようなイメージ)
  • それだけでも「現状の学習データに対して」recency sensitivityも踏まえた推薦ができてよいのだけど、学習データにバイアスが乗っていることは変わりないので、出てきたスコアに対して、公開からの期間の影響を取り除くbackdoor adjustmentをかけて最終的なスコアを計算する

感想

アイデアを頭にいれるにはいいけど、踏み込んだモデルの話になるとわからなくなるので要勉強。
ポピュラリティバイアスを緩和した結果ユーザーがどう感じるかのインタビューは面白い。評価の項目が参考になりそう。
最後のはかなり面白い。recency perceptoronの入力はアイテム特徴量だけっぽいので、ユーザーによるrecency sensitivityの違いは直接的に反映されていなさそう。おそらくどういったモジュールで提供されるのかも影響を与えそうなので気にしたほうがよさそう(「話題の新着動画」か「あなたにおすすめ」か。どう説明されているかで変わりそう)。とはいえ、こういうことだよな~と思う。