Publications

Journal Papers

L. Chen, Z. Tong, Y. Song, G. Wu, L. Wang
CycleACR: Cycle Modeling of Actor-Context Relations for Video Action Detection
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 47, Issue 11, Pages 10588 - 10603, 2025.
[ Paper ] [ Code ]
S. Wang, Y. Teng, L. Wang
Deep Equilibrium Object Detection and Segmentation
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 47, Issue 11, Pages 10094 - 10111, 2025.
[ Paper ] [ Code ]
J. Zhang, Y. Cui, G. Wu, L. Wang
JointFormer: A Unified Framework with Joint Modeling for Video Object Segmentation
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 47, Issue 7, Pages 6039-6054, 2025.
[ Paper ] [ Code ]
H Wang, Y. Wu, S. Guo, L. Wang
PDPP: Projected Diffusion for Procedure Planning in Instructional Videos
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 47, Issue 3, Pages 2107-2124, 2025.
[ Paper ] [ Code ]
C. Xu, Y. Zhu, H. Shen, B. Chen, Y. Liao, X. Chen, L. Wang
Progressive Visual Prompt Learning with Contrastive Feature Re-formation
in International Journal of Computer Vision (IJCV), Volume 133, Issue 2, Pages 511-526, 2025.
[ Paper ] [ Code ]
T. Wu, M. Cao, Z. Gao, G. Wu, L. Wang
STMixer: A One-Stage Sparse Action Detector
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 46, Issue 10, Pages 6842-6857, 2024.
[ Paper ] [ Code ]
J. Lin, Z. Liu, W. Wang, W. Wu, L. Wang
VLG: General Video Recognition with Web Textual Knowledge
in International Journal of Computer Vision (IJCV), Volume 132, Issue 10, Pages 4792–4817, 2024.
[ Paper ] [ Code ]
L. Zhang, Y. Teng, L. Wang
Logit Normalization for Long-tail Object Detection
in International Journal of Computer Vision (IJCV), Volume 132, Issue 6, Pages 2114–2134, 2024.
[ Paper ] [ Code ]
Y. Cui, C. Jiang, G. Wu, L. Wang
MixFormer: End-to-End Tracking with Iterative Mixed Attention
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 46, Issue 6, Pages 4129-4146, 2024.
Selected as the Featured Article of the current issue.
[ Paper ] [ Code ]
F. Shi, W. Huang, L. Wang
End-to-End Dense Video Grounding via Parallel Regression
in Computer Vision and Image Understanding (CVIU), Volume 242, 2024.
[ Paper ] [ Code ]
Y. Ma, Y. Liu, L. Wang, W. Kang, Y. Qiao, Y. Wang
Dual Masked Modeling for Weakly-Supervised Temporal Boundary Discovery
in IEEE Transactions on Multimedia (TMM), Volume 26, Pages 5694-5704, 2024.
[ Paper ] [ Code ]
Y. Li, Z. Wang, Z. Li, L. Wang
Sparse Action Tube Detection
in IEEE Transactions on Image Processing (TIP), Volume 33, Pages 1740-1752, 2024.
[ Paper ] [ Code ]
J. Tu, G. Wu, L. Wang
Dual Graph Networks for Pose Estimation in Crowded Scenes
in International Journal of Computer Vision (IJCV), Volume 132, Issue 3, Pages 633-653, 2024.
[ Paper ] [ Code ]
H.Liu, T. Lu, Y. Xu, J. Liu, L. Wang
Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 46, Issue 4, Pages 2378-2395, 2024.
[ Paper ] [ Code ]
F. Shi, R. Gao, W. Huang, L. Wang
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 46, Issue 2, Pages 1181-1198, 2024.
[ Paper ] [ Code ]
T. Lu, C. Liu, Y. Chen, G. Wu, L. Wang
APP-Net: Auxiliary-point-based Push and Pull Operations for Efficient Point Cloud Recognition
in IEEE Transactions on Image Processing (TIP), Volume 32, Pages 6500-6513, 2023.
[ Paper ] [ Code ]
Z. Huang, G. Wu, L. Wang
Webly-Supervised Semantic Segmentation via Curriculum Learning
in Computer Vision and Image Understanding (CVIU), Volume 236, 2023.
[ Paper ] [ Code ]
Y. Tian, H. Zhang, Y. Liu, L. Wang
Recovering 3D Human Mesh from Monocular Images: A Survey
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 45, Issue 12, Pages 15406-15425, 2023.
[ Paper ] [ Code ]
J. Tan, Y. Wang, G. Wu, L. Wang
Temporal Perceiver: A General Architecture for Arbitrary Boundary Detection
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 45, Issue 10, Pages 12506-12520, 2023.
[ Paper ] [ Code ]
M. Yang, G. Chen, Y. Zheng, T. Lu, L. Wang
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection
in Computer Vision and Image Understanding (CVIU), Volume 232, 2023.
[ Paper ] [ Code ]
Z. Gao, L. Wang, G. Wu
LIP: Local Importance-based Pooling
in International Journal of Computer Vision (IJCV), Volume 131, Issue 1, Pages 363-384, 2023.
Journal extension of LIP with more extensive study
[ Paper ] [ Code ]
Y. Liu, L. Wang, Y. Wang, X. Ma, Y. Qiao
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization
in IEEE Transactions on Image Processing (TIP), Volume 31, Pages 6937-6950, 2022.
A fine-grained action dataset for temporal action localization
[ Paper ] [ Dataset ]
Y. Cui, C. Jiang, L. Wang, G. Wu
Fully Convolutional Online Tracking
in Computer Vision and Image Understanding (CVIU), Volume 224, 2022.
[ Paper ] [ Code ]
D. Du, J. Chen, Y. Li, K. Ma, G. Wu, Y Zheng, L. Wang
Cross-Domain Gated Learning for Domain Generalization
in International Journal of Computer Vision (IJCV), Volume 130, Issue 11, Pages 2842–2857, 2022.
[ Paper ] [ Code ]
D. Du, L. Wang, Z. Li, G. Wu
Cross-Modal Pyramid Translation for RGB-D Scene Recognition
Journal extension of TRecgNet with pyramid translation extension.
in International Journal of Computer Vision (IJCV), Volume 129, Issue 8, Pages 2309-2327, 2021.
[ Paper ] [ Code ]
Z. Ruan, C. Zou, L. Wu, G. Wu, and L. Wang
SADRNet: Self-Aligned Dual Face Regression Networks for Robust 3D Face Alignment and Reconstruction
in IEEE Transactions on Image Processing (TIP), Volume 30, Pages 5739-5806, 2021.
[ Paper ] [ Code ]
Y. Zheng, Z. Liu, Tong Lu, and L. Wang
Dynamic Sampling Networks for Efficient Action Recognition in Videos
A dynamic version of TSN for efficient action recognition
in IEEE Transactions on Image Processing (TIP), Volume 29, Pages 7970-7983, 2020.
[ Paper ] [ BibTex ]
Y. Zhao, Y. Xiong, L. Wang, Z. Wu, X. Tang, and D. Lin
Temporal Action Detection with Structured Segment Networks
Journal extension of SSN with more extensive study
in International Journal of Computer Vision (IJCV), Volume 128, Issue 1, Pages 74-95, 2020.
[ Paper ] [ BibTex ] [ Code ]
L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool
Temporal Segment Networks for Action Recognition in Videos
More extensive study on TSN and adding performance of I3D+TSN on Kinetics
in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 41, Issue 11, Pages 2740-2755, 2019.
[ Paper ] [ BibTex ] [ Code ]
B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang
Real-Time Action Recognition with Deeply-Transferred Motion Vector CNNs
in IEEE Transactions on Image Processing (TIP), Volume 27, Issue 5, Pages 2326-2339, 2018.
[ Paper ] [ BibTex ] [ Code ]
L. Wang, Z. Wang, Y. Qiao, and L. Van Gool
Transferring Deep Object and Scene Representations for Event Recognition in Still Images
rank 1st place in cultural event recognition at ChaLearn LAP challenge CVPR 2015
in International Journal of Computer Vision (IJCV), Volume 126, Issue 2-4, Pages 390-409, 2018.
[ Paper ] [ BibTex ] [ Code ]
L. Wang, S. Guo, W, Huang, Y. Xiong, and Y. Qiao
Knowledge Guided Disambiguation for Large-Scale Scene Classification with Multi-Resolution CNNs
rank 1st place at LSUN challenge 2016 and 2nd place at Places challenge 2015
in IEEE Transactions on Image Processing (TIP), Volume 26, Issue 4, Pages 2055-2068, 2017.
[ Paper ] [ BibTex ] [ Code ]
Z. Wang, L. Wang, Y. Wang, B. Zhang, and Y. Qiao
Weakly Supervised PatchNets: Describing and Aggregating Local Patches for Scene Recognition
in IEEE Transactions on Image Processing (TIP), Volume 26, Issue 4, Pages 2018-2041, 2017.
[ Paper ] [ BibTex ] [ Code ]
S. Guo, W. Huang, L. Wang, and Y. Qiao
Locally Supervised Deep Hybrid Model for Scene Recognition
in IEEE Transactions on Image Processing (TIP), Volume 26, Issue 2, Pages 808-820, 2017.
[ Paper ] [ BibTex ]
Z. Yuan, H. Wang, L. Wang, T. Lu, P. Shivakumara, and C. L. Tan
Modeling Spatial Layout for Scene Image Understanding via a Novel Multiscale Sum-Product Network
in Expert Systems With Applications (ESWA), Volume 63, Pages 231-240, 2016.
[ Paper ] [ BibTex ]
X. Peng, L. Wang, X. Wang, and Y. Qiao
Bag of Visual Words and Fusion Methods for Action Recognition: Comprehensive Study and Good Practice
in Computer Vision and Image Understanding (CVIU), Volume 150, Pages 109-125, 2016.
[ Paper ] [ BibTex ]
L. Wang, Y. Qiao, and X. Tang
MoFAP: A Multi-Level Representation for Action Recognition
in International Journal of Computer Vision (IJCV), Volume 119, Issue 3, Pages 254-271, 2016.
[ Paper ] [ BibTex ]
L. Wang, Y. Qiao, and X. Tang
Latent Hierarchical Model of Temporal Structure for Complex Activity Classification
in IEEE Transactions on Image Processing (TIP), Volume 23, Issue 2, Pages 810-822, 2014.
[ Paper ] [ BibTex ]

CVPR/ICCV/ECCV/ICLR/NeurIPS/ICML Papers

Xiangyu Zeng, Kefan Qiu, Qingyu Zhang, Xinhao Li, Jing Wang, Jiaxin Li, Ziang Yan, Kun Tian, Meng Tian, Xinhai Zhao, Yi Wang, Limin Wang
StreamForest: Efficient Online Video Understanding with Persistent Event Memory
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
Ziang Yan, Xinhao Li, Yinan He, Zhengrong Yue, Xiangyu Zeng, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
Yue Feng, Jinwei Hu, Qijia Lu, Jiawei Niu, Li Tan, Shuo Yuan, Ziyi Yan, Yizhen Jia, Qingzhi He, Shiping Ge, Ethan Chen, Wentong Li, Limin Wang, Jie Qin
MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence
in Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS), 2025
[ Paper ] [ Code ]
J. Yu, Y. Wu, M. Chu, Z. Ren, Z. Huang, P. Chu, R. Zhang, Y. He, Q. Li, S. Li, Z. Li, Z. Tu, C. He, Y. Qiao, Y. Wang, Y. Wang, L. Wang
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
in International Conference on Computer Vision (ICCV), 2025
[ Paper ] [ Code ]
C. Wang, K. Li, T. Jiang, X. Zeng, Y. Wang, L. Wang
Make Your Training Flexible: Towards Deployment-Efficient Video Models
in International Conference on Computer Vision (ICCV), 2025
[ Paper ] [ Code ]
F. Shi, Z. Luo, Y. Ge, Y. Yang, Y. Shan, L. Wang
Scalable Image Tokenization with Index Backpropagation Quantization
in International Conference on Computer Vision (ICCV), 2025
[ Paper ] [ Code ]
J. Zhang, D. Meng, Z. Zhang, Z. Huang, T. Wu, L. Wang
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay
in International Conference on Computer Vision (ICCV), 2025
[ Paper ] [ Code ]
M. Yang, Z. Jia, Z. Dai, S. Guo, L. Wang
MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
in International Conference on Computer Vision (ICCV), 2025
[ Paper ] [ Code ]
S. Wang, Z. Li, Q. Zhang, T. Song, X. Li, T. Ge, B. Zheng, L. Wang
Differentiable Solver Search for Fast Diffusion Sampling
in the Forty-Second International Conference on Machine Learning (ICML), 2025
[ Paper ] [ Code ]
Z. Huang, H. Chen, J. Li, J. Lan, H. Zhu, W. Wang, L. Wang
Stochastic Layer-Wise Shufﬂe for Improving Vision Mamba Training
in the Forty-Second International Conference on Machine Learning (ICML), 2025
[ Paper ] [ Code ]
J. Yang, H. Zhu, Y. Wang, G. Wu, T. He, L. Wang
Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
H. Wang, Z. Tong, K. Zheng, Y. Shen, L. Wang
Contextual AD Narration with Interleaved Multimodal Sequence
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
H. Wang, H. Ouyang, Q. Wang, W. Wang, K. Cheng, Q. Chen, Y. Shen, L. Wang
LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
Z. Huang, X. Li, J. Li, J. Wang, X. Zeng, C. Liang, T. Wu, X. Chen, L. Li, L. Wang
Online Video Understanding: OVBench and VideoChat-Online
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
R. Gao, J. Qi, L. Wang
Multiple Object Tracking as ID Prediction
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
Z. Yan, Z. Li, Y. He, C. Wang, K. Li, X. Li, X. Zeng, Z. Wang, Y. Wang, Y. Qiao, L. Wang, Y. Wang
Task Preference Optimization: Improving Multimodal Large Language Models Performance with Vision Task Alignment
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025
[ Paper ] [ Code ]
X. Zeng, K. Li, C. Wang, X. Li, T. Jiang, Z. Yan, S. Li, Y. Shi, Z. Yue, Y. Wang, Y. Wang, Y. Qiao, L. Wang
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
G. Chen, Y. Liu, Y. Huang, B. Pei, J. Xu, Y. He, T. Lu, Y. Wang, L. Wang
CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
B. Pei, Y. Huang, J. Xu, G. Chen, Y. He, L. Yang, Y. Wang, W. Xie, Y. Qiao, F. Wu, L. Wang
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
Z. Wang, J. Li, Y. Hong, S. Li, K. Li, S. Yu, Y. Wang, Y. Qiao, Y. Wang, M. Bansal, L. Wang
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
H. Zhu, H. Yang, Y. Wang, J. Yang, L. Wang, T. He
SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
Q. Li, many authors, T. Lu, Y. Wang, L. Wang, D. Lin, Y. Qiao, B. Shi, C. He, J. Dai
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
in The Thirteenth International Conference on Learning Representations (ICLR), 2025
[ Paper ] [ Code ]
S. Wang, Z. Li, T. Song, X. Li, T. Ge, B. Zheng, L. Wang
Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution
in Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS), 2024
[ Paper ] [ Code ]
G. Zhang, C. Liu, Y. Cui, X. Zhao, K. Ma, L. Wang
VFIMamba: Video Frame Interpolation with State Space Models
in Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS), 2024
[ Paper ] [ Code ]
Y. Zhu, Y. Ji, Z. Zhao, G. Wu, L. Wang
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation
in Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS), 2024
[ Paper ] [ Code ]
Q. Zhao, Y. Wang, J. Xu, Y. He, Z. Song, L. Wang, Y. Qiao, C. Zhao
Does Video-Text Pretraining Help Open-Vocabulary Online Action Detection?
in Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS), 2024
[ Paper ] [ Code ]
Y. Wang, K. Li, X. Li, J. Yu, Y. He, G. Chen, B. Pei, R. Zheng, J. Xu, Z. Wang, Y. Shi, T. Jiang, S. Li, H. Zhang, Y. Huang, Y. Qiao, Y. Wang, L. Wang
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
K. Li, X. Li, Y. Wang, Y. He, Y. Wang, L. Wang, Y. Qiao
VideoMamba: State Space Model for Efficient Video Understanding
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
X. Li, Y. Zhu, L. Wang
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
H. Liu, Y. Chen, H. Wang, Z. Yang, T. Li, J. Zeng, L. Chen, H. Li, L. Wang
Fully Sparse 3D Occupancy Prediction
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
C. Xu, T. Song, W. Feng, X. Li, T. Ge, B. Zhang, L. Wang
Accelerating Image Generation with Sub-path Linear Approximation Model (oral presentation)
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
Y. Cui, X. Zhao, G. Zhang, S. Cao, K. Ma, L. Wang
StableDrag: Stable Dragging for Point-based Image Editing
in European Conference on Computer Vision (ECCV), 2024
[ Paper ] [ Code ]
F. Shi, J. Gu, H. Xu, S. Xu, W. Zhang, L. Wang
BIVDiff: A Training-free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Z. Zhao, B. Huang, S. Xing, G. Wu, Y. Qiao, L. Wang
Asymmetric Masked Distillation for Pre-Training Small Foundation Models
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Min Yang, Huan Gao, Ping Guo, L. Wang
Adapting Short-Term Transformers for Action Detection in Untrimmed Videos
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Y. Zhu, G. Zhang, J. Tang, G. Wu, L. Wang
Dual DETRs for Multi-Label Temporal Action Detection
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
C. Liu, G. Zhang, R. Zhao, L. Wang
Sparse Global Matching for Video Frame Interpolation with Large Motion
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
T. Wu, R. He, G. Wu, L. Wang
SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Y. Huang, G. Chen, J. Xu, M. Zhang, L. Yang, B. Pei, H. Zhang, L. Dong, Y. Wang, L. Wang, Y. Qiao
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
K. Li, Y. Wang, Y. He, Y. Li, Y. Wang, Y. Liu, Z. Wang, J. Xu, G. Chen, P. Luo, L. Wang, Y. Qiao
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark (highlight presentation)
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
T. Lu, M. Yu, L. Xu, Y. Xiangli, L. Wang, D. Lin, B. Dai
Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering (highlight presentation)
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Z. Huang, Y. He, J. Yu, F. Zhang, C. Si, Y. Jiang, Y. Zhang, T. Wu, Q. Jin, N. Chanpaisit, Y. Wang, X. Chen, L. Wang, D. Lin, Y. Qiao, Z. Liu
VBench: Comprehensive Benchmark Suite for Video Generative Models (highlight presentation)
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[ Paper ] [ Code ]
Z. Gao, Z. Tong, L. Wang, M. Shou
SparseFormer: Sparse Visual Recognition via Limited Latent Tokens
in The Twelfth International Conference on Learning Representations (ICLR), 2024
[ Paper ] [ Project Page ]
Y. Wang, Y. He, Y. Li, K. Li, J. Yu, X. Ma, X. Li, G. Chen, X. Chen, Y. Wang, C. He, P. Luo, Z. Liu, Y. Wang, L. Wang, Y. Qiao
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation (spotlight presentation)
in The Twelfth International Conference on Learning Representations (ICLR), 2024
[ Paper ] [ Project Page ]
K. Sun, J. Pan, Y. Ge, H. Li, H. Duan, X. Wu, R. Zhang, A. Zhou, Z. Qin, Y. Wang, J. Dai, Y. Qiao, L. Wang, H. Li
JourneyDB: A Benchmark for Generative Image Understanding
in Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023
[ Paper ] [ Project Page ]
Y. Cui, T. Song, G. Wu, L. Wang
MixFormerV2: Efficient Fully Transformer Tracking
A CPU Real-time tracker
in Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023
[ Paper ] [ Code ]
S. Wang, Y. Teng, L. Wang
Deep Equilibrium Object Detection
Extension of AdaMixer to infinite depth with DEQ
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
Y. Teng, H. Liu, S. Guo, L. Wang
StageInteractor: Query-based Object Detector with Cross-stage Interaction
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
H. Liu, Y. Teng, T. Lu, H. Wang, L. Wang
SparseBEV: Sparse 3D Object Detection from Multi-Camera Videos
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
R. Gao, L. Wang
MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
Y. Cui, C. Zeng, X. Zhao, Y. Yang, G. Wu, L. Wang
SportsMOT: A Large Multi-Object Tracking Dataset in Diverse Sports Scenes
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
L. Chen, Z. Tong, Y. Song, G. Wu, L. Wang
Efficient Video Action Detection with Token Dropout and Context Refinement
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
B. Huang, Z. Zhao, G. Zhang, Y. Qiao, L. Wang
MGMAE: Motion Guided Masking for Video Masked Autoencoding
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
K. Li, Y. Wang, Y. He, Y. Li, Y. Wang, L. Wang, Y. Qiao
UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
K. Li, Y. Wang, Y. Li, Y. Wang, Y. He, L. Wang, Y. Qiao
Unmasked Teacher: Towards Training-Efficient Video Foundation Models (oral presentation)
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
J. Wang, G. Chen, Y. Huang, L. Wang, T. Lu
Memory-and-Anticipation Transformer for Online Action Understanding
in International Conference on Computer Vision (ICCV), 2023
[ Paper ] [ Code ]
L. Wang, B. Huang, Z. Zhao, Z. Tong, Y. He, Y. Wang, Y. Wang, Y. Qiao
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023
[ Paper ] [ Code ]
T. Wu, M. Cao, Z. Gao, G. Wu, L. Wang
STMixer: One-Stage Sparse Action Detector
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023
[ Paper ] [ Code ]
G. Zhang, Y. Zhu, H. Wang, Y. Chen, G. Wu, L. Wang
Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023
[ Paper ] [ Code ]
H. Wang, Y. Wu, S. Guo, L. Wang
PDPP: Projected Diffusion for Procedure Planning in Instructional Videos ( highlight presentation )
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023
[ Paper ] [ Code ]
T. Lu, X. Ding, H. Liu, G. Wu, L. Wang
LinK: Linear Kernel for LiDAR-based 3D Perception
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023
[ Paper ] [ Code ]
H. Cheng, Z. Liu, W. Wu, L. Wang
Filter-Recovery Network for Multi-Speaker Audio-Visual Speech Separation
in International Conference on Learning Representations (ICLR), 2023
[ Paper ] [ Code ]
Z. Tong, Y. Song, J. Wang, L. Wang
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training ( highlight presentation )
in Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS), 2022
[ Paper ] [ Code ]
J. Tan, X. Zhao, X. Shi, B. Kang, L. Wang
PointTAD: Multi-Label Temporal Action Detectionwith Learnable Query Points
in Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS), 2022
[ Paper ] [ Code ]
H. Cheng, Z. Liu, H. Zhou, C. Qian, W. Wu, L. Wang
Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
in European Conference on Computer Vision (ECCV), 2022
[ Paper ] [ Code ]
Y. Cui, C. Jiang, L. Wang, G. Wu
MixFormer: End-to-End Tracking with Iterative Mixed Attention
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 ( oral presentation )
[ Paper ] [ Code ]
Z. Gao, L. Wang, B. Han, S. Guo
AdaMixer: A Fast-Converging Query-Based Object Detector
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 ( oral presentation )
[ Paper ] [ Code ]
L. Zhao, L. Wang
Task-specific Inconsistency Alignment for Domain Adaptive Object Detection
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[ Paper ] [ Code ]
Y. Teng, L. Wang
Structured Sparse R-CNN for Direct Scene Graph Generation
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[ Paper ] [ Code ]
J. Lin, H. Duan, K. Chen, D. Lin, L. Wang
OCSampler: Compressing Videos to One Clip with Single-step Sampling
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[ Paper ] [ Code ]
J. Tang, Z. Liu, C. Qian, W. Wu, L. Wang
Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[ Paper ] [ Code ]
S. Guo, Z. Xiong, Y. Zhong, L. Wang, X. Guo, B. Han, W. Huang
Cross-Architecture Self-supervised Video Representation Learning
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[ Paper ] [ Code ]
Y. Li, L. Chen, R. He, Z. Wang, G. Wu, L. Wang
MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
in IEEE International Conference on Computer Vision (ICCV), 2021
A high-quality and fine-grained action detection benchmark
[ Paper ] [ Data ] [ Code ] [ Challenge ]
T. Li, L. Wang, G. Wu
Self Supervision to Distillation for Long-Tailed Visual Recognition
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
Z. Gao, L. Wang, G. Wu
Mutual Supervision for Dense Object Detection
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ]
Y. Teng, L. Wang, Z. Li, G. Wu
Target Adaptive Context Aggregation for Video Scene Graph Generation
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
Z. Liu, L. Wang, W. Wu, C. Qian, T. Lu
TAM: Temporal Adaptive Module for Video Recognition
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
J. Tan, J. Tang, L. Wang, G. Wu
Relaxed Transformer Decoders for Direct Action Proposal Generation
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
Y. Zhi, Z. Tong, L. Wang, G. Wu
MGSampler: An Explainable Sampling Strategy for Video Action Recognition
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
H. Zhang, Y. Tian, X. Zhou, W. Ouyang, Y. Liu, L. Wang, Z. Sun
3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop ( oral presentation )
in IEEE International Conference on Computer Vision (ICCV), 2021
[ Paper ] [ Code ]
T. Lu, L. Wang, G. Wu
CGA-Net: Category Guided Aggregation for Point Cloud Semantic Segmentation
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021
[ Paper ] [ Code (soon) ]
L. Wang, Z. Tong, B. Ji, G. Wu
TDN: Temporal Difference Networks for Efficient Action Recognition
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021
[ Paper ] [ Code ]
Z. Wang, Z. Gao, L. Wang, Z. Li, G. Wu
Boundary-Aware Cascade Networks for Temporal Action Segmentation
in European Conference on Computer Vision (ECCV), 2020
[ Paper ] [ Code ]
J. Wu, Z. Kuang, L. Wang, W. Zhang, G. Wu
Context-Aware RCNN: a Baseline for Action Detection in Videos
in European Conference on Computer Vision (ECCV), 2020
[ Paper ] [ Code ]
Y. Li, Z. Wang, L. Wang, G. Wu
Actions as Moving Points
in European Conference on Computer Vision (ECCV), 2020
[ Paper ] [ Code ]
C. Gao, Q. Liu, Q. Xu, L. Wang, J. Liu, C. Zou
SketchyCOCO: Image Generation from Freehand Scene Sketches ( oral presentation )
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020
[ Paper ] [ Code ]
Y. Li, B. Ji, X. Shi, J. Zhang, B. Kang, L. Wang
TEA: Temporal Excitation and Aggregation for Action Recognition
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020
[ Paper ] [ Code ]
S. Zhang, S. Guo, W. Huang, M. Scott, L. Wang
V4D: 4D Convolutional Neural Networks for Video-Level Representation Learning
in International Conference on Learning Representations (ICLR), 2020
[ Paper ] [ Code ]
Z. Gao, L. Wang, and G. Wu
LIP: Local Importance-based Pooling
in IEEE International Conference on Computer Vision (ICCV), 2019.
[ Paper ] [ BibTex ] [ Code ]
J. Wu, L. Wang, L. Wang, J. Guo, and G. Wu
Learning Actor Relation Graphs for Group Activity Recognition
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[ Paper ] [ BibTex ] [ Code ]
D. Du, L. Wang, H. Wang, K. Zhao, G. Wu
Translate-to-Recognize Networks for RGB-D Scene Recognition
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[ Paper ] [ BibTex ] [ Code ] [ Project Page ]
J. Guo, Z. Zhou, and L. Wang
Single Image Highlight Removal with a Sparse and Low-Rank Reflection Model
in European Conference on Computer Vision (ECCV), 2018.
[ Paper ]
L. Wang, W. Li, W. Li, and L. Van Gool
Appearance-and-Relation Networks for Video Classification
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[ Paper ] [ Code ]
Y. Zhao, Y. Xiong, L. Wang, Z. Wu, X. Tang, and D. Lin
Temporal Action Detection with Structured Segment Networks
in IEEE International Conference on Computer Vision (ICCV), 2017.
[ Paper ] [ BibTex ] [ Project Page ] [ Code ]
L. Wang, Y. Xiong, D. Lin, and L. Van Gool
UntrimmedNets for Weakly Supervised Action Recognition and Detection
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[ Paper ] [ BibTex ] [ Poster ] [ Code ]
J. Song, L. Wang, L. Van Gool, and O. Hilliges
Thin-Slicing Network: A Deep Structural Model for Human Pose Estimation in Videos ( oral presentation )
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[ Paper ] [ BibTex ] [ Project Page ]
L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
in European Conference on Computer Vision (ECCV), 2016.
major contribution to the winner solution of ActivityNet challenge 2016
[ Paper ] [ BibTex ] [ Poster ] [ Code ]
L. Wang, Y. Qiao, X. Tang, and L. Van Gool
Actionness Estimation Using Hybrid Fully Convolutional Networks
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[ Paper ] [ BibTex ] [ Poster ] [ Project Page ] [ Code ]
B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang
Real-time Action Recognition with Enhanced Motion Vector CNNs
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[ Paper ] [ BibTex ] [ Poster ] [ Project Page ] [ Code ]
L. Wang, Y. Qiao, and X. Tang
Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[ Paper ] [ BibTex ] [ Poster ] [ Extended Abstract ] [ Project Page ] [ Code ]
L. Wang, Y. Qiao, and X. Tang
Video Action Detection with Relational Dynamic-Poselets
in European Conference on Computer Vision (ECCV), 2014.
[ Paper ] [ BibTex ] [ Poster ] [ Spotlight ] [ Code ]
Z. Cai, L. Wang, X. Peng, and Y. Qiao
Multi-View Super Vector for Action Recognition ( oral presentation )
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[ Paper ] [ BibTex ] [ Video Spotlight ] [ Oral Presentation ] [ Poster ] [ Supplement ] [ Code ]
X. Peng*, L. Wang*, Y. Qiao, and Q. Peng (* indicates equal contribution)
Boosting VLAD with Supervised Dictionary Learning and High-Order Statistics
in European Conference on Computer Vision (ECCV), 2014.
[ Paper ] [ BibTex ]
L. Wang, Y. Qiao, and X. Tang
Mining Motion Atoms and Phrases for Complex Action Recognition
in IEEE International Conference on Computer Vision (ICCV), 2013.
[ Paper ] [ BibTex ] [ Poster ] [ Spotlight ] [ Project Page ]
L. Wang, Y. Qiao, and X. Tang
Motionlets: Mid-Level 3D Parts for Human Motion Recognition
in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013.
[ Paper ] [ BibTex ] [ Poster ] [ Spotlight ] [ Project Page ]

Technical Reports

Journal Papers

CVPR/ICCV/ECCV/ICLR/NeurIPS/ICML Papers

Other Conference Papers

Workshop and Notebook Papers