AI Engineer & Multimodal AI Researcher

Hello, I'm Wassim Swaileh

PhD in Computer Science with 8+ years post-PhD experience building production AI models and training pipelines for multimodal and autonomous systems. Expertise in VLMs, video understanding, video generation, and robotics.

8+

Years Experience

CVPR

Tier-1 Conference

15+

Publications

View Research Publications

About Me

I am an AI Engineer with a PhD in Computer Science, specializing in building production AI models and training pipelines for multimodal and autonomous systems.

My extensive experience spans several cutting-edge domains, including:

Video Understanding & Long Video Analysis (ReWind - CVPR 2025)
Video Generation using VLMs and Diffusion Architectures
Vision-Language Models (LLaVA, CLIP, QwenVL, LayoutVLM)
Vision-Language-Action (VLA) Models
4D LiDAR Generation & Autonomous Systems
Generative Diffusion Models
3D Scene Reconstruction
Kinematic Time Series Analysis

I currently work at Huawei Suomi Finland Research Center as a Senior Researcher in Multimodal AI, where I build and ship production-scale video generation models and co-developed the ReWind model for long video understanding (CVPR 2025).

Current Position

Senior Researcher - Multimodal AI

Huawei Suomi Finland Research Center

2023 - Present

Helsinki, Finland

Research Areas

Video Understanding

Long video analysis with instructed learnable memory (ReWind - CVPR 2025)

Video Generation

Production-scale video generation using VLMs and diffusion architectures

Vision-Language Models

LLaVA, CLIP, QwenVL, LayoutVLM for multimodal perception

Autonomous Systems

4D LiDAR generation, sensor fusion, and 3D scene reconstruction

Generative Diffusion

Advanced generative AI for creating and manipulating visual content

Kinematic Analysis

Time series analysis for motion and trajectory reconstruction

Explore All Research Areas

Featured Publications

2025 CVPR

"ReWind: Understanding Long Videos with Instructed Learnable Memory"

A. Diko, T. Wang, W. Swaileh, S. Sun, Y. Patras

Computer Vision and Pattern Recognition Conference (CVPR 2025)

2023

"Online handwriting trajectory reconstruction from kinematic sensors using temporal convolutional network"

W. Swaileh, F. Imbert, Y. Soullard, R. Tavenard, E. Anquetil

International Journal on Document Analysis and Recognition (IJDAR)

2023

"Towards desirable decision boundary by Moderate-Margin Adversarial Training"

X. Liang, Y. Qian, J. Huang, X. Ling, B. Wang, C. Wu, W. Swaileh

Pattern Recognition Letters

View All Publications

Research Impact

15+

Publications

CVPR

Tier-1 Conference

Patent

Submitted

8+

Years Experience

Let's Connect

Interested in collaboration or want to learn more about my research?

CVPR 2025 Publication

Hello, I'm Wassim Swaileh

8+

CVPR

15+

About Me

Current Position

Research Areas

Video Understanding

Video Generation

Vision-Language Models

Autonomous Systems

Generative Diffusion

Kinematic Analysis

Featured Publications

Research Impact

15+

CVPR

Patent

8+

Let's Connect