Julian Michael

Research Scientist, Meta

Joined

July 2019

Names

Julian Michael

Emails

****@cs.washington.edu (Confirmed)

****@gmail.com (Confirmed)

****@nyu.edu (Confirmed)

****@scale.com (Confirmed)

****@meta.com (Confirmed)

Personal Links

Career & Education History

Research Scientist

Meta (meta.com)

2025 – Present

Head of SEAL

Scale AI (scale.com)

2025 – 2025

Postdoc

Center for Data Science, New York University (nyu.edu)

2022 – 2024

PhD student

Computer Science & Engineering, University of Washington (cs.washington.edu)

2015 – 2022

Undergrad student

Department of Computer Science, University of Texas at Austin (cs.utexas.edu)

2011 – 2015

Advisors, Relations & Conflicts

Postdoc Advisor

Sam Bowman

2022 – 2024

PhD Advisor

Luke Zettlemoyer

2015 – 2022

Expertise

alignment

truthfulness

debate

2022 – Present

interpretability

explainability

2019 – Present

benchmarks

evaluation

linguistic analysis

2018 – Present

semantics

semantic roles

semantic formalisms

2015 – Present

structure prediction

parsing

ccg

2015 – Present

Publications

LLM Novice Uplift on Dual-Use, In Silico Biology Tasks: A Multi-Benchmark Assessment
Chen Bo Calvin Zhang, Christina Q Knight, Nicholas Kruus, Jason Hausenloy, Nathaniel Li, Aiden Kim, Yury Orlovskiy, Coleman Breen, Bryce Cai, Jasper Götting, Andrew Bo Liu, Samira Nedungadi, Paula Rodriguez, Yannis Yiming He, Zifan Wang, Seth Donoughe, Julian Michael
- ICLR 2026 AIWILD
- Readers: Everyone
Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models
Boyi Wei, Zora Che, Nathaniel Li, Jasper Götting, Samira Nedungadi, Julian Michael, Summer Yue, Dan Hendrycks, Peter Henderson, Zifan Wang, Seth Donoughe, Mantas Mazeika
- BioSafe GenAI 2025 Poster
- Readers: Everyone
Search-Time Data Contamination
Ziwen Han, Meher Mankikar, Julian Michael, Zifan Wang
- NeurIPS 2025 LLM Evaluation Workshop Poster
- Readers: Everyone
Inverse Scaling in Test-Time Compute
Aryo Pradipta Gema, Alexander Hägele, Runjin Chen, Andy Arditi, Jacob Goldman-Wetzler, Kit Fraser-Taliente, Henry Sleight, Linda Petrini, Julian Michael, Beatrice Alex, Pasquale Minervini, Yanda Chen, Joe Benton, Ethan Perez
- Accepted by TMLR
- Readers: Everyone
Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
Miles Turpin, Andy Arditi, Marvin Li, Joe Benton, Julian Michael
- ICML 2025 R2-FM Workshop Poster
- Readers: Everyone
Quantifying Elicitation of Latent Capabilities in Language Models
Elizabeth Donoway, Hailey Joren, Arushi Somani, Henry Sleight, Julian Michael, Michael R DeWeese, John Schulman, Ethan Perez, Fabien Roger, Jan Leike
- NeurIPS 2025 poster
- Readers: Everyone
Why Do Some Language Models Fake Alignment While Others Don't?
Abhay Sheshadri, John Hughes, Julian Michael, Alex Troy Mallen, Arun Jose, Fabien Roger
- NeurIPS 2025 spotlight
- Readers: Everyone
AI Debate Aids Assessment of Controversial Claims
Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, Jaeyoung Lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel
- NeurIPS 2025 poster
- Readers: Everyone
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought
James Chua, Edward Rees, Hunar Batra, Julian Michael, Ethan Perez, Miles Turpin
- ICLR 2025 Conference Withdrawn Submission
- Readers: Everyone
Evaluating Oversight Robustness with Incentivized Reward Hacking
Yoav Tzfati, McKenna Fitzgerald, Juan J Vazquez, Julian Michael
- ICLR 2025 Conference Withdrawn Submission
- Readers: Everyone

View all 57 publications

Co-Authors

View all 152 co-authors

URL: https://openreview.net/profile?id=~Julian_Michael1

⇱ Julian Michael | OpenReview

Julian Michael

Names

Emails

Personal Links

Career & Education History

Advisors, Relations & Conflicts

Expertise

Publications

LLM Novice Uplift on Dual-Use, In Silico Biology Tasks: A Multi-Benchmark Assessment

Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models

Search-Time Data Contamination

Inverse Scaling in Test-Time Compute

Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning

Quantifying Elicitation of Latent Capabilities in Language Models

Why Do Some Language Models Fake Alignment While Others Don't?

AI Debate Aids Assessment of Controversial Claims

Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought

Evaluating Oversight Robustness with Incentivized Reward Hacking

Co-Authors