Transformers
Deconvolution
Upsampling
Downsampling
Diffusion
Diffusion
こちらも読む
共著者、ジャーナル、引用グラフによってこの研究に関連する記事。
この研究では、画像キャプション生成のための新しいランキング拡散トランスフォーマー(RDT)を導入し、視覚情報の活用とビジョン・言語アライメントを改善することで、記述的で識別力のあるキャプションを生成します。RDTモデルは、ベンチマークデータセットで最先端の結果を達成します。
科学分野:
背景:
研究 の 目的:
主な方法:
主要な成果:
結論: