言語モデルを用いた発話内容に基づくFACS生成モデルの提案,小橋龍人・宇治川遥祐・高汐一紀(慶大),電子情報通信学会技術研究報告,vol. 124, no. 143,2024年8月

本研究では、発話テキストから表情を生成するモデルを提案する。
従来の研究では、音声から表情のアニメーションを生成する手法が提案されてきたが、
本研究ではテキストから直接表情を生成することに焦点を当てる。
出力はFACSに基づいたAction Unit(AU)を用い、
Transformerのデコーダを用いずにエンコーダのみで構成することで、
計算量を削減し、モデルの拡張性を高める事を目指す。
また、スライディングウィンドウ方式で学習を行い、トークン毎に生成することで時系列に沿った生成を可能とする。
学習には、WEB上に公開された動画を収集し、表情検出と文字起こしを行ってデータセットを構築した。