Nicholas Schiefer

Generating author description...

Action	Title	Year	Authors
+ PDF Chat	Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models	2024	Carson Denison Monte MacDiarmid Fazl Barez David Duvenaud Shauna Kravec Samuel Marks Nicholas Schiefer Ryan Soklaski Alex Tamkin Jared Kaplan
+	Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training	2024	Evan Hubinger Carson Denison Jesse Mu Mike Lambert Meg Tong Monte MacDiarmid Tamera Lanham Daniel M. Ziegler Tim Maxwell Newton Cheng
+	The Capacity for Moral Self-Correction in Large Language Models	2023	Deep Ganguli Amanda Askell Nicholas Schiefer Thomas T. Liao Kamilė Lukošiūtė Anna Chen Anna Goldie Azalia Mirhoseini Catherine Olsson Danny Hernandez
+	Learned Interpolation for Better Streaming Quantile Approximation with Worst-Case Guarantees	2023	Nicholas Schiefer Justin Y. Chen Piotr Indyk Shyam Narayanan Sandeep Silwal Tal Wagner
+ PDF Chat	Learned Interpolation for Better Streaming Quantile Approximation with Worst-Case Guarantees	2023	Nicholas Schiefer Justin Y. Chen Piotr Indyk Shyam Narayanan Sandeep Silwal Tal Wagner
+	Towards Measuring the Representation of Subjective Global Opinions in Language Models	2023	Esin Durmus Karina Nyugen Thomas I. Liao Nicholas Schiefer Amanda Askell Anton Bakhtin Carol Chen Zac Hatfield-Dodds Danny Hernandez Nicholas Joseph
+	Question Decomposition Improves the Faithfulness of Model-Generated Reasoning	2023	Ansh Radhakrishnan Karina Nguyen Anna Chen Carol Chen Carson Denison Danny Hernandez Esin Durmus Evan Hubinger Jackson Kernion Kamilė Lukošiūtė
+	Measuring Faithfulness in Chain-of-Thought Reasoning	2023	Tamera Lanham Anna Chen Ansh Radhakrishnan Benoit Steiner Carson Denison Danny Hernandez Dustin Li Esin Durmus Evan Hubinger Jackson Kernion
+ PDF Chat	Discovering Language Model Behaviors with Model-Written Evaluations	2023	Ethan Perez Sam Ringer Kamilė Lukošiūtė Karina Nguyen Edwin Chen Scott Heiner Craig Pettit Catherine Olsson Sandipan Kundu Saurav Kadavath
+	Towards Understanding Sycophancy in Language Models	2023	Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell Samuel R. Bowman Newton Cheng Esin Durmus Zac Hatfield-Dodds Scott R. Johnston
+	Specific versus General Principles for Constitutional AI	2023	Sandipan Kundu Yuntao Bai Saurav Kadavath Amanda Askell A. Callahan Anna Chen Anna Goldie Avital Balwit Azalia Mirhoseini B. T. McLean
+	Language Models (Mostly) Know What They Know	2022	Saurav Kadavath Tom Conerly Amanda Askell Tom Henighan Dawn Drain Ethan Perez Nicholas Schiefer Zac Hatfield Dodds Nova DasSarma Eli Tran-Johnson
+	Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned	2022	Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai Saurav Kadavath Ben Mann Ethan Perez Nicholas Schiefer Kamal Ndousse
+	Toy Models of Superposition	2022	Nelson Elhage Tristan Hume Catherine Olsson Nicholas Schiefer Tom Henighan Shauna Kravec Zac Hatfield-Dodds Robert Lasenby Dawn Drain Carol Chen
+	Exponentially Improving the Complexity of Simulating the Weisfeiler-Lehman Test with Graph Neural Networks	2022	Anders Aamand Justin Y. Chen Piotr Indyk Shyam Narayanan Ronitt Rubinfeld Nicholas Schiefer Sandeep Silwal Tal Wagner
+	Measuring Progress on Scalable Oversight for Large Language Models	2022	Samuel R. Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit Scott Heiner Kamile Lukosuite Amanda Askell Andy Jones Anna Chen
+	Engineering Monosemanticity in Toy Models	2022	Adam S. Jermyn Nicholas Schiefer Evan Hubinger
+	Constitutional AI: Harmlessness from AI Feedback	2022	Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell Jackson Kernion Andy Jones Anna Chen Anna Goldie Azalia Mirhoseini Cameron McKinnon
+	Discovering Language Model Behaviors with Model-Written Evaluations	2022	Ethan Perez Sam Ringer Kamilė Lukošiūtė Karina Nguyen Edwin Chen Scott Heiner Craig Pettit Catherine Olsson Sandipan Kundu Saurav Kadavath
+ PDF Chat	FoundationDB Record Layer	2019	C. Chrysafis Ben Collins Scott Dugas Jay Dunkelberger Moussa Ehsan Scott Gray Alec Grieser Ori Herrnstadt Kfir Lev-Ari Tao Lin

Action

Title

Year

Authors

+ PDF Chat

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

2024

Carson Denison
Monte MacDiarmid
Fazl Barez
David Duvenaud
Shauna Kravec
Samuel Marks
Nicholas Schiefer
Ryan Soklaski
Alex Tamkin
Jared Kaplan

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

2024

Evan Hubinger
Carson Denison
Jesse Mu
Mike Lambert
Meg Tong
Monte MacDiarmid
Tamera Lanham
Daniel M. Ziegler
Tim Maxwell
Newton Cheng

The Capacity for Moral Self-Correction in Large Language Models

2023

Deep Ganguli
Amanda Askell
Nicholas Schiefer
Thomas T. Liao
Kamilė Lukošiūtė
Anna Chen
Anna Goldie
Azalia Mirhoseini
Catherine Olsson
Danny Hernandez

Learned Interpolation for Better Streaming Quantile Approximation with Worst-Case Guarantees

2023

Nicholas Schiefer
Justin Y. Chen
Piotr Indyk
Shyam Narayanan
Sandeep Silwal
Tal Wagner

+ PDF Chat

Learned Interpolation for Better Streaming Quantile Approximation with Worst-Case Guarantees

2023

Nicholas Schiefer
Justin Y. Chen
Piotr Indyk
Shyam Narayanan
Sandeep Silwal
Tal Wagner

Towards Measuring the Representation of Subjective Global Opinions in Language Models

2023

Esin Durmus
Karina Nyugen
Thomas I. Liao
Nicholas Schiefer
Amanda Askell
Anton Bakhtin
Carol Chen
Zac Hatfield-Dodds
Danny Hernandez
Nicholas Joseph

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

2023

Ansh Radhakrishnan
Karina Nguyen
Anna Chen
Carol Chen
Carson Denison
Danny Hernandez
Esin Durmus
Evan Hubinger
Jackson Kernion
Kamilė Lukošiūtė

Measuring Faithfulness in Chain-of-Thought Reasoning

2023

Tamera Lanham
Anna Chen
Ansh Radhakrishnan
Benoit Steiner
Carson Denison
Danny Hernandez
Dustin Li
Esin Durmus
Evan Hubinger
Jackson Kernion

+ PDF Chat

Discovering Language Model Behaviors with Model-Written Evaluations

2023

Ethan Perez
Sam Ringer
Kamilė Lukošiūtė
Karina Nguyen
Edwin Chen
Scott Heiner
Craig Pettit
Catherine Olsson
Sandipan Kundu
Saurav Kadavath

Towards Understanding Sycophancy in Language Models

2023

Mrinank Sharma
Meg Tong
Tomasz Korbak
David Duvenaud
Amanda Askell
Samuel R. Bowman
Newton Cheng
Esin Durmus
Zac Hatfield-Dodds
Scott R. Johnston

Specific versus General Principles for Constitutional AI

2023

Sandipan Kundu
Yuntao Bai
Saurav Kadavath
Amanda Askell
A. Callahan
Anna Chen
Anna Goldie
Avital Balwit
Azalia Mirhoseini
B. T. McLean

Language Models (Mostly) Know What They Know

2022

Saurav Kadavath
Tom Conerly
Amanda Askell
Tom Henighan
Dawn Drain
Ethan Perez
Nicholas Schiefer
Zac Hatfield Dodds
Nova DasSarma
Eli Tran-Johnson

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

2022

Deep Ganguli
Liane Lovitt
Jackson Kernion
Amanda Askell
Yuntao Bai
Saurav Kadavath
Ben Mann
Ethan Perez
Nicholas Schiefer
Kamal Ndousse

Toy Models of Superposition

2022

Nelson Elhage
Tristan Hume
Catherine Olsson
Nicholas Schiefer
Tom Henighan
Shauna Kravec
Zac Hatfield-Dodds
Robert Lasenby
Dawn Drain
Carol Chen

Exponentially Improving the Complexity of Simulating the Weisfeiler-Lehman Test with Graph Neural Networks

2022

Anders Aamand
Justin Y. Chen
Piotr Indyk
Shyam Narayanan
Ronitt Rubinfeld
Nicholas Schiefer
Sandeep Silwal
Tal Wagner

Measuring Progress on Scalable Oversight for Large Language Models

2022

Samuel R. Bowman
Jeeyoon Hyun
Ethan Perez
Edwin Chen
Craig Pettit
Scott Heiner
Kamile Lukosuite
Amanda Askell
Andy Jones
Anna Chen

Engineering Monosemanticity in Toy Models

2022

Adam S. Jermyn
Nicholas Schiefer
Evan Hubinger

Constitutional AI: Harmlessness from AI Feedback

2022

Yuntao Bai
Saurav Kadavath
Sandipan Kundu
Amanda Askell
Jackson Kernion
Andy Jones
Anna Chen
Anna Goldie
Azalia Mirhoseini
Cameron McKinnon

Discovering Language Model Behaviors with Model-Written Evaluations

2022

Ethan Perez
Sam Ringer
Kamilė Lukošiūtė
Karina Nguyen
Edwin Chen
Scott Heiner
Craig Pettit
Catherine Olsson
Sandipan Kundu
Saurav Kadavath

+ PDF Chat

FoundationDB Record Layer

2019

C. Chrysafis
Ben Collins
Scott Dugas
Jay Dunkelberger
Moussa Ehsan
Scott Gray
Alec Grieser
Ori Herrnstadt
Kfir Lev-Ari
Tao Lin

Common Coauthors

Coauthor	Papers Together
Jared Kaplan	14
Sam McCandlish	13
Ethan Perez	13
Shauna Kravec	12
Amanda Askell	11
Zac Hatfield-Dodds	11
Nicholas Joseph	11
Kamal Ndousse	10
Samuel R. Bowman	10
Anna Chen	10
Nelson Elhage	9
Yuntao Bai	9
Tom Henighan	9
Catherine Olsson	8
Saurav Kadavath	8
Dawn Drain	8
Dario Amodei	8
Deep Ganguli	8
Evan Hubinger	7
Tamera Lanham	7
Scott G. Johnston	7
Sandipan Kundu	7
Robin J. Larson	7
Timothy Telleen-Lawton	7
Tom Brown	7
Andy Jones	6
Karina Nguyen	6
Jackson Kernion	6
Jamie Kerr	6
Sam Ringer	6
Ben Mann	6
Christopher Olah	6
Jack A. Clark	6
Oliver Rausch	6
Kamilė Lukošiūtė	5
Esin Durmus	5
Michael Sellitto	5
Joshua D. Landau	5
Newton Cheng	5
Tristan Hume	5
Nova DasSarma	4
Roger Grosse	4
Anna Goldie	4
Carol Chen	4
Sheer El Showk	4
Carson Denison	4
Dustin Li	4
Cameron McKinnon	4
Azalia Mirhoseini	4
Danny Hernandez	4

Commonly Cited References

Action	Title	Year	Authors	# of times referenced
+ PDF Chat	Streaming Quantiles Algorithms with Small Space and Update Time	2022	Nikita Ivkin Edo Liberty Kevin Lang Zohar Karnin Vladimir Braverman	1
+ PDF Chat	The Case for Learned Index Structures	2018	Tim Kraska Alex Beutel Ed H. Jay B. Dean Neoklis Polyzotis	1
+ PDF Chat	Optimal Quantile Approximation in Streams	2016	Zohar Karnin Kevin Lang Edo Liberty	1
+	SOSD: A Benchmark for Learned Indexes	2019	Andreas Kipf Ryan Marcus Alexander van Renen Mihail Stoian Alfons Kemper Tim Kraska Thomas Neumann	1
+ PDF Chat	Benchmarking learned indexes	2020	Ryan Marcus Andreas Kipf Alexander van Renen Mihail Stoian Sanchit Misra Alfons Kemper Thomas Neumann Tim Kraska	1
+	Algorithms with Predictions	2020	Michael Mitzenmacher Sergei Vassilvitskii	1
+ PDF Chat	Theory meets Practice at the Median: A Worst Case Comparison of Relative Error Quantile Algorithms	2021	Graham Cormode Abhinav Mishra Joseph Ross Pavel Veselý	1