Jove
Visualize
お問い合わせ
JoVE
x logofacebook logolinkedin logoyoutube logo
JoVEについて
概要リーダーシップブログJoVEヘルプセンター
著者向け
出版プロセス編集委員会範囲と方針査読よくある質問投稿
図書館員向け
推薦の声購読アクセスリソース図書館諮問委員会よくある質問
研究
JoVE JournalMethods CollectionsJoVE Encyclopedia of Experimentsアーカイブ
教育
JoVE CoreJoVE BusinessJoVE Science EducationJoVE Lab Manual教員リソースセンター教員サイト
利用規約
プライバシーポリシー
ポリシー

関連する概念動画

Transformers01:26

Transformers

1.7K
A device that transforms voltages from one value to another using induction is called a transformer. A transformer consists of two separate coils, or windings, wrapped around the same soft iron core. However, they are electrically insulated from each other.
The iron core has a substantial relative permeability. Therefore, the magnetic field lines generated due to the current in one winding are almost entirely confined within the core, such that the same magnetic flux permeates each turn of both...
1.7K
Deconvolution01:20

Deconvolution

524
Deconvolution, also known as inverse filtering, is the process of extracting the impulse response from known input and output signals. This technique is vital in scenarios where the system's characteristics are unknown, and they must be inferred from the observable signals.
Deconvolution involves several mathematical techniques to derive the impulse response. One common approach is polynomial division. In this method, the input and output sequences are treated as coefficients of...
524
Upsampling01:22

Upsampling

568
Managing signal sampling rates is essential in digital signal processing to maintain signal integrity. A decimated signal, characterized by a reduced frequency range due to its lower sampling rate, can be upsampled by inserting zeros between each sample. This upsampling process expands the original spectrum and introduces repeated spectral replicas at intervals dictated by the new Nyquist frequency. To refine this zero-inserted sequence, it is passed through a lowpass filter with a cutoff...
568
Downsampling01:20

Downsampling

575
When considering a sampled sequence with zero values between sampling instants, one can replace it by taking every N-th value of the sequence. At these integer multiples of N, the original and sampled sequences coincide. This process, known as decimation, involves extracting every N-th sample from a sequence, thereby creating a more efficient sequence.
The Fourier transform of the decimated sequence reveals a combination of scaled and shifted versions of the original spectrum. This...
575
Diffusion01:21

Diffusion

6.1K
Diffusion is a type of passive transport. In passive transport, a substance tends to move from an area of high concentration to an area of low concentration until the concentration is equal across the space. For example, take the diffusion of substances through the air. When someone opens a perfume bottle in a room filled with people, the perfume is at its highest concentration in the bottle and is at its lowest at the edges of the room. The perfume vapor will diffuse, or spread away, from the...
6.1K
Diffusion01:12

Diffusion

215.7K
Diffusion is the passive movement of substances down their concentration gradients—requiring no expenditure of cellular energy. Substances, such as molecules or ions, diffuse from an area of high concentration to an area of low concentration in the cytosol or across membranes. Eventually, the concentration will even out, with the substance moving randomly but causing no net change in concentration. Such a state is called dynamic equilibrium, which is essential for maintaining overall...
215.7K

こちらも読む

関連記事

共著者、ジャーナル、引用グラフによってこの研究に関連する記事。

並び替え
Same author

LoRASculpt: Harmonious Low-Rank Adaptation for Multimodal Large Language Models.

IEEE transactions on pattern analysis and machine intelligence·2026
Same author

Towards clinical-level interpretation of dental panoramic radiography using an instance-guided vision-language model.

Nature biomedical engineering·2026
Same author

Systemic immune-inflammation index predicts post-thrombectomy outcomes and reveals a mediating role in the association between neurocardiac stress and prognosis: a multicenter study.

Frontiers in neurology·2026
Same author

Holistic Invariant Retracing for Distortion-Resilient Multi-Modal Learning in Spatial Transcriptomics.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same author

Differentiable Clustering Graph Convolutional Network for Hyperspectral Unmixing: Methodology and Benchmark.

IEEE transactions on neural networks and learning systems·2026
Same author

MUP-SAM: Multi-scale vision mamba UNet prompt generation for SAM in multi-organ medical image segmentation.

Neural networks : the official journal of the International Neural Network Society·2026
Same journal

Style-Aware Contrastive Test-Time Adaptation: A Dual-Cache Model for Robust Vision-Language Alignment.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same journal

Semantic Frame Interpolation.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same journal

Physics-Guided Cross-Modal Decoupling with Test-Time Adaptation for Hyperspectral Image Restoration.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same journal

Change-Prior-Guided Unsupervised Change Detection of Heterogeneous Remote Sensing Images.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same journal

AgonicDreamer: Enhancing Multi-View Consistency in Text-to-3D Generation via Rectified Score Distillation.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
Same journal

BiCM-Prompt: Bidirectional Cross-Modal Prompt Tuning for Class-Incremental Learning on Multisource Remote Sensing Images.

IEEE transactions on image processing : a publication of the IEEE Signal Processing Society·2026
関連記事をすべて見る

関連する実験動画

Updated: Jan 8, 2026

A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images
04:23

A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images

Published on: April 21, 2023

2.2K

Fine-Grained Image Captioning by Ranking Diffusion Transformer

Jun Wan, Min Gan, Lefei Zhang

    IEEE transactions on image processing : a publication of the IEEE Signal Processing Society
    |December 15, 2025
    PubMed
    まとめ
    この要約は機械生成です。

    この研究では、画像キャプション生成のための新しいランキング拡散トランスフォーマー(RDT)を導入し、視覚情報の活用とビジョン・言語アライメントを改善することで、記述的で識別力のあるキャプションを生成します。RDTモデルは、ベンチマークデータセットで最先端の結果を達成します。

    キーワード:
    画像キャプション生成拡散モデルトランスフォーマーコンピュータビジョン自然言語処理

    さらに関連する動画

    Swin-PSAxialNet: An Efficient Multi-Organ Segmentation Technique
    04:48

    Swin-PSAxialNet: An Efficient Multi-Organ Segmentation Technique

    Published on: July 5, 2024

    723
    Author Spotlight: Enhancement of Salient Object Detection for Smart Grid Applications
    03:31

    Author Spotlight: Enhancement of Salient Object Detection for Smart Grid Applications

    Published on: December 15, 2023

    991

    関連する実験動画

    Last Updated: Jan 8, 2026

    A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images
    04:23

    A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images

    Published on: April 21, 2023

    2.2K
    Swin-PSAxialNet: An Efficient Multi-Organ Segmentation Technique
    04:48

    Swin-PSAxialNet: An Efficient Multi-Organ Segmentation Technique

    Published on: July 5, 2024

    723
    Author Spotlight: Enhancement of Salient Object Detection for Smart Grid Applications
    03:31

    Author Spotlight: Enhancement of Salient Object Detection for Smart Grid Applications

    Published on: December 15, 2023

    991

    科学分野:

    • コンピュータビジョン
    • 人工知能
    • 自然言語処理

    背景:

    • CLIP視覚特徴ベースの画像キャプション生成モデルは急速に進歩しています。
    • 既存のモデルは、細粒度の視覚情報の活用が不十分であり、複雑なビジョン・言語アライメントモデリングのために、記述的で識別力のあるキャプションの生成に課題を抱えています。

    研究 の 目的:

    • 現在の画像キャプション生成モデルの限界に対処すること。
    • 記述的および識別的な能力を強化する、細粒度の画像キャプション生成のための新しいアプローチを提案すること。

    主な方法:

    • ランキング拡散トランスフォーマー(RDT)モデルを導入しました。
    • CLIP特徴から多様な視覚情報をマイニングするために、新しいランキングアテンションメカニズムを備えたランキング視覚エンコーダー(RVE)を統合しました。
    • 拡散プロセスとビジョン・言語アライメントを強化するために、キャプション品質ランキングをグローバルセマンティック監視信号として使用するランキング損失(RL)を組み込みました。

    主要な成果:

    • RVEは、多様で識別力のある視覚情報を効果的にマイニングします。
    • RLは、キャプション品質ランキングを活用することで、ビジョンとランゲージのセマンティックアライメントを強化します。
    • RDTモデルは、協調的なRVEとRL、および制御されたノイズ拡散を通じて、言語特徴と正確にアライメントされた、より識別力のある視覚特徴を学習します。
    • 実験結果は、RDTがベンチマークデータセットにおいて既存の最先端の画像キャプション生成モデルを上回ることを示しています。

    結論:

    • 提案されたランキング拡散トランスフォーマー(RDT)は、現在の画像キャプション生成モデルの限界を効果的に対処します。
    • RDTモデルは、細粒度の視覚情報の活用とビジョン・言語アライメントを強化することにより、記述的で識別力のあるキャプションの生成において優れたパフォーマンスを示します。
    • RDTは、細粒度の画像キャプション生成の分野における重要な進歩を表しています。