Tao Yu (余涛)

Bio

Tao Yu is an Assistant Professor of Computer Science at The University of Hong Kong and a director of the XLANG Lab (as part of the HKU NLP Group). He spent one year in the UW NLP Group working with Noah Smith, Luke Zettlemoyer, and Mari Ostendorf. He completed his Ph.D. in Computer Science from Yale University, advised by Dragomir Radev and master's at Columbia University advised by Owen Rambow and Kathleen McKeown.

Tao has received the Google and Amazon faculty research awards (Google Research Scholar Award 2023, Amazon Research Award 2022). His main research interest is in Natural Language Processing. His research aims to develop embodied AI agents that empower users to use language to interact with digital and physical environments to carry out real-world tasks. Such systems need to ground language and perception into code and actions executable in the corresponding embodied environment, helping people perform data science, control computers, and collaborate with robots. The research spans three core areas:

Code Generation for Data Science: building coding agents that let non-experts query and interact with data using language without technical expertise, democratizing access to data science capabilities (Spider 2.0 (ICLR'25), Spider2-V (NeurIPS'24), Binder (ICLR'23), DS-1000 (ICML'23), Coder-Reviewer (ICML'23), UnifiedSKG (EMNLP'22), Spider (EMNLP'18))
Grounding Language in the Digital World: creating computer use agents that interact with software just as humans do - by perceiving screens, clicking, and typing, making complex digital tools more accessible (OSWorld (NeurIPS'24), AgentTrek (ICLR'25), Aguvis (ICML'25), BRIGHT (ICLR'25),,Pop-up Attack (ACL'25), OpenAgents (COLM'24), Instructor embedding (ACL'23))
Grounding Language in the Physical World: exploring LLM/VLMs for robotic learning to enable natural human-robot communication and ground language in physical actions (Text2Reward (ICLR'24), Lemur (ICLR'24))

We are actively looking for strong and motivated students to join our group! If you are interested in working with us, please read recent papers, fill in the form with thoughts on extensions. Sorry, I'm afraid I generally can't respond to all individual emails.

Publications

Most recent publications on Google Scholar.
^* indicates equal contribution.

Selected
All

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Yiheng Xu*, Zekun Wang*, Junli Wang*, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

ICML 2025

Paper Poster Code

Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

Fangyu Lei*, Jixuan Chen*, Yuxiao Ye, Ruisheng Cao, Dongchan Shin, Hongjin Su, Zhaoqing Suo, Hongcheng Gao, Wenjing Hu, Pengcheng Yin, Victor Zhong, Caiming Xiong, Ruoxi Sun, Qian Liu, Sida Wang, Tao Yu

ICLR 2025 (Oral, top 2%)

Paper Poster Code

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Yiheng Xu*, Dunjie Lu*, Zhennan Shen*, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu

ICLR 2025 (Spotlight, top 5%)

Paper Poster Code

BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Hongjin Su*, Howard Yen*, Mengzhou Xia*, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

ICLR 2025 (Spotlight, top 5%)

Paper Poster Code

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

Hongjin Su, Ruoxi Sun, Jinsung Yoon, Pengcheng Yin, Tao Yu, Sercan Ö. Arık

ICLR 2025

Paper

Generative Representational Instruction Tuning

Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela

ICLR 2025

Paper Code

Attacking Vision-Language Computer Agents via Pop-ups

Yanzhe Zhang, Tao Yu, Diyi Yang

ACL 2025

Paper Code

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu

NeurIPS 2024, followed and used by OpenAI & Anthropic, ~2k GitHub stars

Paper Poster Code

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

NeurIPS 2024 (Spotlight, top 3%)

Paper Poster Code

OpenAgents: An Open Platform for Language Agents in the Wild

Tianbao Xie*, Fan Zhou*, Zhoujun Cheng*, Peng Shi*, Luoxuan Weng*, Yitao Liu*, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, Leo Z. Liu, Yiheng Xu, Hongjin Su, Dongchan Shin, Caiming Xiong, Tao Yu

COLM 2024, ~4k GitHub stars

Paper Poster Code

Lemur: Harmonizing Natural Language and Code for Language Agents

Yiheng Xu*, Hongjin Su*, Chen Xing*, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu

ICLR 2024 (Spotlight, top 5%)

Paper Poster Code

Text2Reward: Automated Dense Reward Function Generation for Reinforcement Learning

Tianbao Xie*, Siheng Zhao*, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu

ICLR 2024 (Spotlight, top 5%)

Paper Poster Code

One Embedder, Any Task: Instruction-Finetuned Text Embeddings

Hongjin Su*, Weijia Shi*, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari Ostendorf, Wen-tau Yih, Noah A Smith, Luke Zettlemoyer, Tao Yu

ACL Findings 2023, ~6M downloads on HuggingFace, ~2k GitHub stars

Paper Poster Code Data

Coder Reviewer Reranking for Code Generation

Tianyi Zhang, Tao Yu, Tatsunori B Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I Wang

ICML 2023

Paper Code

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

Yuhang Lai*, Chengxi Li*, Yiming Wang*, Tianyi Zhang*, Ruiqi Zhong*, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu

ICML 2023

Paper Poster Code Data

Binding Language Models in Symbolic Languages

Zhoujun Cheng*, Tianbao Xie*, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Tao Yu

ICLR 2023 (Spotlight, top 5%)

Paper Poster Code

Selective Annotation Makes Language Models Better Few-Shot Learners

Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu

ICLR 2023

Paper Poster Code

UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models

Tianbao Xie*, Chen Henry Wu*, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, Tao Yu

EMNLP 2022 (Oral, top 4%)

Paper Poster Code

ZeroGen: Efficient Zero-shot Learning via Dataset Generation

Jiacheng Ye*, Jiahui Gao*, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong

EMNLP 2022

Paper Code

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Irene Li, Qingning Yao, Shanelle Roman, Zilin Zhang and Dragomir Radev

EMNLP 2018, ~300 submissions, ~1k Github stars

Paper Poster Code Data

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Yiheng Xu*, Zekun Wang*, Junli Wang*, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

ICML 2025

Paper Poster Code

Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

ICLR 2025 (Oral, top 2%)

Paper Poster Code

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Yiheng Xu*, Dunjie Lu*, Zhennan Shen*, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu

ICLR 2025 (Spotlight, top 5%)

Paper Poster Code

BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

ICLR 2025 (Spotlight, top 5%)

Paper Poster Code

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

Hongjin Su, Ruoxi Sun, Jinsung Yoon, Pengcheng Yin, Tao Yu, Sercan Ö. Arık

ICLR 2025

Paper

Generative Representational Instruction Tuning

Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela

ICLR 2025

Paper Code

Attacking Vision-Language Computer Agents via Pop-ups

Yanzhe Zhang, Tao Yu, Diyi Yang

ACL 2025

Paper Code

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

NeurIPS 2024, followed and used by OpenAI & Anthropic, ~2k GitHub stars

Paper Poster Code

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

NeurIPS 2024 (Spotlight, top 3%)

Paper Poster Code

OpenAgents: An Open Platform for Language Agents in the Wild

COLM 2024, ~4k GitHub stars

Paper Poster Code

Does Collaborative Human-LM Dialogue Generation Help Information Extraction from Human Dialogues?

Bo-Ru Lu, Nikita Haduong, Chia-Hsuan Lee, Zeqiu Wu, Hao Cheng, Paul Koester, Jean Utke, Tao Yu, Noah A. Smith, Mari Ostendorf

COLM 2024

Paper

Lemur: Harmonizing Natural Language and Code for Language Agents

Yiheng Xu*, Hongjin Su*, Chen Xing*, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu

ICLR 2024 (Spotlight, top 5%)

Paper Poster Code

Text2Reward: Automated Dense Reward Function Generation for Reinforcement Learning

Tianbao Xie*, Siheng Zhao*, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu

ICLR 2024 (Spotlight, top 5%)

Paper Poster Code

EvoR: Evolving Retrieval for Code Generation

Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu, Qian Liu, Tao Yu

EMNLP Findings 2024

Paper Poster Code

FOLIO: Natural Language Reasoning with First-Order Logic

with Simeng Han, Rui Zhang, Alexander R Fabbri, Xi Victoria Lin, Caiming Xiong, Dragomir Radev and many authors

EMNLP, 2024

Paper Code

Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models

The BIG-bench Team

Transactions on Machine Learning Research 2024 (Outstanding Award Finalist)

Paper Code

One Embedder, Any Task: Instruction-Finetuned Text Embeddings

Hongjin Su*, Weijia Shi*, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari Ostendorf, Wen-tau Yih, Noah A Smith, Luke Zettlemoyer, Tao Yu

ACL Findings 2023, ~6M downloads on HuggingFace, ~2k GitHub stars

Paper Poster Code Data

Coder Reviewer Reranking for Code Generation

Tianyi Zhang, Tao Yu, Tatsunori B Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I Wang

ICML 2023

Paper Code

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

Yuhang Lai*, Chengxi Li*, Yiming Wang*, Tianyi Zhang*, Ruiqi Zhong*, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu

ICML 2023

Paper Poster Code Data

Compositional Exemplars for In-context Learning

Jiacheng Ye, Zhiyong Wu, Jiangtao Feng, Tao Yu, and Lingpeng Kong

ICML 2023

Paper Code

Binding Language Models in Symbolic Languages

Zhoujun Cheng*, Tianbao Xie*, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Tao Yu

ICLR 2023 (Spotlight, top 5%)

Paper Poster Code

Selective Annotation Makes Language Models Better Few-Shot Learners

Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu

ICLR 2023

Paper Poster Code

Automated Self-Supervised Learning for Recommendation

Lianghao Xia, Chao Huang, Chunzhen Huang, Kangyi Lin, Tao Yu, Ben Kao

WWW 2023

Paper Code

UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models

EMNLP 2022 (Oral, top 4%)

Paper Poster Code

In-Context Learning for Few-Shot Dialogue State Tracking

Yushi Hu, Chia-Hsuan Lee, Tianbao Xie, Tao Yu, Noah A. Smith, Mari Ostendorf

EMNLP Findings 2022

Paper Code

ZeroGen: Efficient Zero-shot Learning via Dataset Generation

Jiacheng Ye*, Jiahui Gao*, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong

EMNLP 2022

Paper Code

ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback

Jiacheng Ye, Jiahui Gao, Zhiyong Wu, Jiangtao Feng, Tao Yu, and Lingpeng Kong

EMNLP Findings 2022

Paper Code

Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play

Qi Liu, Zihuiwen Ye, Tao Yu, Phil Blunsom, Linfeng Song

EMNLP Findings 2022

Paper Code

NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries

Yiru Chen, Ryan Li, Austin Mac, Tianbao Xie, Tao Yu, Eugene Wu

IEEE Visualization Conference NLVIZ Workshop, 2022

Paper

DYLE: Dynamic Latent Extraction for Abstractive Long-Input Summarization

Ziming Mao*, Chen Henry Wu*, Ansong Ni, Yusen Zhang, Rui Zhang, Tao Yu, Budhaditya Deb, Chenguang Zhu, Ahmed H Awadallah, Dragomir Radev

ACL 2022

Paper Code

An Exploratory Study on Long Dialogue Summarization: What Works and What's Next

Yusen Zhang*, Ansong Ni*, Tao Yu, Rui Zhang, Chenguang Zhu, Budhaditya Deb, Asli Celikyilmaz, Ahmed Hassan Awadallah, Dragomir Radev

EMNLP Findings 2021, Short Paper

Paper Code

SummerTime: Text Summarization Toolkit for Non-experts

Ansong Ni, Zhangir Azerbayev, Mutethia Mutuma, Troy Feng, Yusen Zhang, Tao Yu, Ahmed Hassan Awadallah, Dragomir Radev

EMNLP 2021. Demo Track

Paper Code

Testing Cross-Database Semantic Parsers Using Canonical Utterances

Heather Lent, Semih Yavuz, Tao Yu, Tong Niu, Yingbo Zhou, Dragomir Radev, Xi Victoria Lin

EMNLP 2021 Workshop: Evaluation & Comparison of NLP Systems. Best Paper Award

Paper Code

Logic-Consistency Text Generation from Semantic Parses

Chang Shu, Yusen Zhang, Xiangyu Dong, Peng Shi, Tao Yu, Rui Zhang

ACL Findings 2021

Paper Code

QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization

Ming Zhong*, Da Yin*, Tao Yu, Ahmad Zaidi, Mutethia Mutuma, Rahul Jha, Ahmed Hassan Awadallah, Asli Celikyilmaz, Yang Liu, Xipeng Qiu and Dragomir Radev

NAACL 2021

Paper Code

DART: Open-Domain Structured Data Record to Text Generation

with Linyong Nan, Dragomir Radev, Rui Zhang, Neha Verma, Xi Victoria Lin, Caiming Xiong, Richard Socher and many authors.

NAACL 2021

Paper Data

SCoRe: Pre-Training for Context Representation in Conversational Semantic Parsing

Tao Yu, Rui Zhang, Alex Polozov, Christopher Meek, Ahmed Hassan Awadallah

ICLR 2021

Paper Code

GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing

Tao Yu, Chien-Sheng Wu, Xi Victoria Lin, Bailin Wang, Yi Chern Tan, Xinyi Yang, Dragomir Radev, Richard Socher, Caiming Xiong

ICLR 2021

Paper Code

Semantic Evaluation for Text-to-SQL with Distilled Test Suites

Ruiqi Zhong, Tao Yu, Dan Klein

EMNLP 2020

Paper Code

Did You Ask a Good Question? A Cross-Domain Question Intention Classification Benchmark for Text-to-SQL

Yusen Zhang, Xiangyu Dong, Shuaichen Chang, Tao Yu, Peng Shi, Rui Zhang

EMNLP 2020 Workshop on Interactive and Executable Semantic Parsing. Short Paper

Paper Data

CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases

Tao Yu, Rui Zhang He Yang Er, Suyi Li, Eric Xue, Bo Pang, Xi Victoria Lin, Yi Chern Tan, Tianze Shi, Zihan Li, Youxuan Jiang, Michihiro Yasunaga, Sungrok Shim, Tao Chen, Alexander Fabbri, Zifan Li, Luyao Chen, Yuwen Zhang, Shreya Dixit, Vincent Zhang, Caiming Xiong, Richard Socher, Walter Lasecki, Dragomir Radev

EMNLP 2019

Paper Data

Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions

Rui Zhang, Tao Yu, He Yang Er, Sungrok Shim, Eric Xue, Xi Victoria Lin, Tianze Shi, Caiming Xiong, Richard Socher, Dragomir Radev

EMNLP 2019

Paper Code

SParC: Cross-Domain Semantic Parsing in Context

Tao Yu, Rui Zhang, Michihiro Yasunaga, Yi Chern Tan, Xi Victoria Lin, Suyi Li, Heyang Er, Irene Li, Bo Pang, Tao Chen, Emily Ji, Shreya Dixit, David Proctor, Sungrok Shim, Jonathan Kraft, Vincent Zhang, Caiming Xiong, Richard Socher and Dragomir Radev

ACL 2019

Paper Code Data

Twitter Sentiment in New York City Parks as Measure of Well-being

Richard A Plunz, Yijia Zhou, Maria Isabel Carrasco Vintimilla, Kathleen Mckeown, Tao Yu, Laura Uguccioni, Maria Paola Sutto

Landscape and Urban Planning 2019

Paper Code Data

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Irene Li, Qingning Yao, Shanelle Roman, Zilin Zhang and Dragomir Radev

EMNLP 2018, ~300 submissions, ~1k Github stars

Paper Poster Code Data

SyntaxSQLNet: Syntax Tree Networks for Complex and Cross-Domain Text-to-SQL Task

Tao Yu, Michihiro Yasunaga, Kai Yang, Rui Zhang, Dongxu Wang, Zifan Li and Dragomir Radev

EMNLP 2018

Paper Code

TypeSQL: Knowledge-based Type-Aware Neural Text-to-SQL Generation

Tao Yu, Zifan Li, Zilin Zhang, Rui Zhang, Dragomir Radev

NAACL 2018, Short Paper

Paper Code

Cross-lingual Sentiment Transfer with Limited Resources

Mohammad Sadegh Rasooli, Noura Farra, Axinia Radeva, Tao Yu, and Kathleen McKeown

Machine Translation 2017

Paper Code

The Columbia-GWU System at the 2016 TAC KBP BeSt Evaluation

Owen Rambow, Tao Yu, Axinia Radeva, Sardar Hamidian, Alexander R. Fabbri, Debanjan Ghosh, Christopher Hidey, Tianrui Peng, Mona Diab, Kathleen McKeown, Smaranda Muresan

NIST TAC KBP Workshop, 2016

Paper Slides

Talks and Presentations

Invited talks, Deep Learning for Code Workshop,
ICLR 2025

Invited talks, LLM Agents Workshop,
ACL 2025

Invited talks, Table Representation Learning Workshop",
ACL 2025

Stanford NLP Seminar,
01/2025

Invited talks, Workshop on Open-World Agents,
NeurIPS 2024

Tutorial on Language Agents: Foundations, Prospects, and Risks,
EMNLP 2024

Panelist, Workshop on LLM Agents,
ICLR 2024

Invited talks, Table Representation Learning Workshop,
NeurIPS 2023

Invited talks, Databases and Large Language Models Workshop,
VLDB 2023

Tutorial on Complex Reasoning over Natural Language,
ACL 2023

Advancing Natural Language Interfaces with Language Models as Agents,
Google Research, Apr. 2021
ServiceNow Research, Feb. 2022
AllState Tech Talks, June 2022
Amazon AWS, Nov. 2022
Columbia NLP seminar, April 2023
Cornell DB seminar, May 2023
Microsoft Research Asia, May 2023
Apple KP Tech Talks, June 2023
Morgan Stanley ML Speaker Seminar, Dec. 2023
MILA ML4Code Seminar, Dec. 2023
Instacart Distinguished Speaker Series, Jan. 2024

Students

Xinyuan Wang, Ph.D. student, 2024

Bowen Wang, Ph.D. student, 2024

Tianbao Xie, Ph.D. student, 2022

Hongjin Su, Ph.D. student, 2022

Yiheng Xu, Ph.D. student, 2022, co-advised with Lingpeng Kong

Jiacheng Ye, Ph.D. student, 2022, co-advised with Lingpeng Kong

Siheng Zhao, Intern, 2023, NJU BS → USC PhD

Yuhan Liu, Intern, 2023, XJTU BS → NYU PhD

Zhoujun Cheng, Intern, 2022, SJTU BS/MS → UCSD PhD

Fan Zhou, Intern, 2023, SJTU BS/MS

Leo Liu, Intern, 2023, UW BS/MS → UT Austin PhD

Chen Henry Wu, Intern, 2022, Tsinghua BS → CMU PhD

Ryan Li, Intern, 2022, UW BS → Stanford MS

Chengzu Li, Intern, 2022, Xi'an Jiaotong BS → Cambridge PhD

Shuyang Jiang, Intern, 2023, SJTU BS → Fudan PhD

Yiming Wang, Intern, 2022, PKU BS → Harvard MS

Yuhang Lai, Intern, 2022, BIT BS → Fudan MS

Chengxi Li, Intern, 2022, HIT BS → CUHK PhD

Ming Zhong, Intern, 2020, Fudan MS → UIUC PhD

Da Yin, Intern, 2020, PKU BS → UCLA PhD

Teaching

DATA8005: Advanced NLP, Fall 2023, Fall 2024

COMP3361: Natural Language Processing, Spring 2024, Spring 2025

Service

Organizing Committee
Best Paper Committee, ICLR 2025
Demonstration Chair, ACL 2025
Agentic AI for Enterprise Workshop @ KDD 2025
AI Verification in the Wild Workshop @ ICLR 2025
Multi-Agent Workshop @ AAAI 2025
Student Volunteer Chair, ACL 2023
Structured and Unstructured Knowledge Integration Workshop @ NAACL 2022
Interactive and Executable Semantic Parsing Workshop @ EMNLP 2020

Area Chair/Reviewer
Nature
COLM 2024, 2025
ICLR: 2022, 2023, 2024
ICML: 2023, 2024
NeurIPS: 2022, 2023
TACL
ACL: 2020, 2021, 2022
EMNLP: 2019, 2020, 2021, 2022
NAACL: 2019, 2021
COLING: 2020, 2022
AACL-IJCNLP: 2020

Resume

Full Resume in PDF.

The University of Hong Kong 08/2021 - now

Assistant Professor, CS
XLANG Lab, HKU NLP group
University of Washington 09/2021 - 08/2022

Postdoc in UW NLP group
Host: Noah Smith, also working with Luke Zettlemoyer and Mari Ostendorf
Yale University 2017 - 2021

Ph.D. Student
Computer Science - Natural Language Processing
Advisors: Dragomir R. Radev
Microsoft Research Summer 2020

NLP Research, Intern
Mentors: Ahmed Hassan Awadallah, Oleksandr Polozov, and Chris Meek
Salesforce Research Summer 2019

NLP Research, Intern
Mentors: Victoria Lin and Caiming Xiong
Samsung Research America Summer 2018

NLP Research, Intern
Columbia CCLS & NLP Group 05-10/2016

Research Assistant
Advised by Owen Rambow and Kathleen McKeown
Columbia University 2015 – 2017

M.S. Student
Data Science
University of Utah 2012 - 2015

B.S. Student
Mathematics
Economics

Misc.

I did a cycling tour (~2 weeks) at the top of the world, Tibet (avg elevation: ~4500 meters). I am also a student pilot. I enjoy hiking, travelling, and cooking. I ski and skate, and I am learning tennis.

I am from Ningdu (a less developed but beautiful county), Jiangxi Province in China. I’ve lived in (stay for over 3 months) about 20 cities including Zhongshan, Beijing, Shanghai, Salt Lake City, New York City, San Francisco, New Haven, Columbus, Honolulu, San Diego, Seattle, and Hong Kong etc. I've also visited over 60 cities around the world.

Acknowledgement

This website uses the website design and template by Martin Saveski