Open to Collab

15 98 16

wangshuai

wangsssssss

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

upvoted a paper 4 days ago

Mode Seeking meets Mean Seeking for Fast Long Video Generation

upvoted a paper 7 days ago

veScale-FSDP: Flexible and High-Performance FSDP at Scale

View all activity

Organizations

upvoted a paper 2 days ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Paper • 2603.03276 • Published 3 days ago • 66

upvoted a paper 4 days ago

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Paper • 2602.24289 • Published 7 days ago • 36

upvoted a paper 7 days ago

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Paper • 2602.22437 • Published 8 days ago • 7

upvoted 2 papers 8 days ago

Image Generation with a Sphere Encoder

Paper • 2602.15030 • Published 18 days ago • 15

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Paper • 2602.19163 • Published 12 days ago • 14

upvoted 2 papers 12 days ago

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Paper • 2602.13515 • Published 20 days ago • 43

Unified Latents (UL): How to train your latents

Paper • 2602.17270 • Published 15 days ago • 57

authored a paper 23 days ago

Adaptive 1D Video Diffusion Autoencoder

Paper • 2602.04220 • Published about 1 month ago • 5

upvoted a paper 23 days ago

Autoregressive Image Generation with Masked Bit Modeling

Paper • 2602.09024 • Published 25 days ago • 6

upvoted a paper 24 days ago

Adaptive 1D Video Diffusion Autoencoder

Paper • 2602.04220 • Published about 1 month ago • 5

upvoted 6 papers about 1 month ago

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Paper • 2601.15369 • Published Jan 21 • 21

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published Jan 22 • 53

upvoted a paper about 2 months ago

BabyVision: Visual Reasoning Beyond Language

Paper • 2601.06521 • Published Jan 10 • 197

upvoted 2 papers 2 months ago

SemanticGen: Video Generation in Semantic Space

Paper • 2512.20619 • Published Dec 23, 2025 • 93

Bidirectional Normalizing Flow: From Data to Noise and Back

Paper • 2512.10953 • Published Dec 11, 2025 • 7

upvoted a paper 3 months ago

Towards Scalable Pre-training of Visual Tokenizers for Generation

Paper • 2512.13687 • Published Dec 15, 2025 • 106

wangshuai

AI & ML interests

Recent Activity

Organizations

wangsssssss's activity