Hao Li (李昊)

I‘m one of the select few members of technical staff @ ERNIE Team, Baidu driving the Reinforcement Learning and On-policy Distillation for our flagship model releases.

Prior to this, I was a Post-doc @ Imperial College London and Research Intern @ Microsoft Research

My research interests lie in Post-training and Reinforcement Learning. Recently, focusing on:

Agentic RL & Reward Modeling
Training-Inference Mismatch
On-policy Distillation

Email / LinkedIn / Google Scholar / GitHub

Blog

ERNIE 5.1: The Next Generation Foundation Model

May 9, 2026 LLM Release

Announcing the release of ERNIE 5.1. Exploring the latest advancements in post-training, reinforcement learning, and our continued scaling efforts.

Read post →

ERNIE 5.0: Pushing the Boundaries of Foundation Models

Feb 6, 2026 LLM Release

A deep dive into the architecture and training methodologies behind ERNIE 5.0, achieving top-tier performance on global benchmarks through advanced reinforcement learning techniques.

Read post →

MIRA: Medical Time Series Foundation Model

Jan 24 2026 Healthcare AI Foundation Model

Presenting our work at NeurIPS 2025. This paper explores MIRA, a foundation model specifically designed to tackle the complexities of real-world medical time-series data and electronic health records.

Read paper →

TimeCraft: A Universal Framework for Time-Series Generation

Aug 4 2025 Time-Series Generative AI

Introducing TimeCraft, a controllable generative engine for universal time-series data. Exploring the core architecture and its impact on modeling real-world sequential data.

Read article →

Model Releases

ERNIE 5.1

ERNIE Team, Baidu

Primary contributor. Post-training and RL core recipe.

🏆 #1 in China (Text Arena) 🌎 #4 Globally (Search Arena) 🤗 768B LLM

[Product] [Blog]

ERNIE 5.0

ERNIE Team, Baidu

Co-author.

🏆 #1 in China (Text Arena) 🌎 #8 Globally 🤗 2.4T(2400B) LLM

[Product] [Blog] [Hugging Face] [Technical Report]

Selected Work

TimeCraft: A Controllable Generative Engine for Time-Series Data

Microsoft Research

🌟 Major AI Conference 📊 Diffusion Model

[GitHub] [Paper]

Selected Publications

MN-TSG: Continuous Time Series Generation with Irregular Observations

Xu Zhang, Junwei Deng, Chang Xu, Hao Li, Jiang Bian

ICML 2026

[Paper]

Arg-LLaDA: Argument Summarization via Large Language Diffusion Models and Sufficiency-Aware Refinement

Hao Li, Yizheng Sun, Viktor Schlegel, Kailai Yang, Riza Batista-Navarro, Goran Nenadic

ACL 2026

[Paper]

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang

ACL 2026

[Paper]

MIRA: Medical Time Series Foundation Model for Real-World Health Data

Hao Li, Bowen Deng, Chang Xu, Zhiyuan Feng, Viktor Schlegel, Yu-Hao Huang, Yizheng Sun, Jingyuan Sun, Kailai Yang, Yiyao Yu, Jiang Bian

NeurIPS 2025

[Paper] [Code] [Talk]

BRIDGE: Bootstrapping Text to Control Time-series Generation via Multi-agent Iterative Optimization and Diffusion Modeling

Hao Li, Yu-Hao Huang, Chang Xu, Viktor Schlegel, Renhe Jiang, Riza Batista-Navarro, Goran Nenadic, Jiang Bian

ICML 2025

[Paper] [Code] [Talk]

TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation

Bowen Deng, Chang Xu, Hao Li, Yu-Hao Huang, Min Hou, Jiang Bian

KDD 2025

[Paper] [Code] [Talk]

Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study

Yizheng Sun, Hao Li, Chang Xu, Hongpeng Zhou, Chenghua Lin, Riza Batista-Navarro, Jingyuan Sun

EMNLP 2025

[Paper]

LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro

NAACL 2025 Findings

[Paper]

Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation

Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic

ACL 2024 Findings

[Paper] [Code]

CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models

Yizhi Li, Ge Zhang, Xingwei Qu, Jiali Li, Zhaoqun Li, Zekun Wang, Hao Li, Ruibin Yuan, Yinghao Ma, Kai Zhang, Wangchunshu Zhou, Yiming Liang, Lei Zhang, Lei Ma, Jiajun Zhang, Zuowen Li, Stephen W Huang, Chenghua Lin, Wenhu Chen, Jie Fu

ACL 2024 Findings

[Paper] [Code]

Do You Hear the People Sing? Key Point Analysis via Iterative Clustering and Abstractive Summarisation

Hao Li, Viktor Schlegel, Riza Theresa Batista-Navarro, Goran Nenadic

ACL 2023

[Paper] [Code]

Not All Quantifiers Are Equal: Probing Transformer-based Language Models' Understanding of Generalised Quantifiers

Tharindu Madusanka, Iqra Zahid, Hao Li, Ian Pratt-Hartmann, Riza Batista-Navarro

EMNLP 2023

[Paper]

Hi! I'm Hao Li

Hao Li (李昊)

Blog

ERNIE 5.1: The Next Generation Foundation Model

ERNIE 5.0: Pushing the Boundaries of Foundation Models

MIRA: Medical Time Series Foundation Model

TimeCraft: A Universal Framework for Time-Series Generation

Model Releases

Selected Work

Selected Publications