本研究では、発話テキストから表情を生成するモデルを提案する。
従来の研究では、音声から表情のアニメーションを生成する手法が提案されてきたが、
本研究ではテキストから直接表情を生成することに焦点を当てる。
出力はFACSに基づいたAction Unit(AU)を用い、
Transformerのデコーダを用いずにエンコーダのみで構成することで、
計算量を削減し、モデルの拡張性を高める事を目指す。
また、スライディングウィンドウ方式で学習を行い、トークン毎に生成することで時系列に沿った生成を可能とする。
学習には、WEB上に公開された動画を収集し、表情検出と文字起こしを行ってデータセットを構築した。