Karina Nguyen

Generating author description...

Action	Title	Year	Authors
+	The Capacity for Moral Self-Correction in Large Language Models	2023	Deep Ganguli Amanda Askell Nicholas Schiefer Thomas T. Liao Kamilė Lukošiūtė Anna Chen Anna Goldie Azalia Mirhoseini Catherine Olsson Danny Hernandez
+	FAIR-Ensemble: When Fairness Naturally Emerges From Deep Ensembling	2023	Wei-Yin Ko Daniel D’souza Karina Nguyen Randall Balestriero Sara Hooker
+	Question Decomposition Improves the Faithfulness of Model-Generated Reasoning	2023	Ansh Radhakrishnan Karina Nguyen Anna Chen Carol Chen Carson Denison Danny Hernandez Esin Durmus Evan Hubinger Jackson Kernion Kamilė Lukošiūtė
+	Measuring Faithfulness in Chain-of-Thought Reasoning	2023	Tamera Lanham Anna Chen Ansh Radhakrishnan Benoit Steiner Carson Denison Danny Hernandez Dustin Li Esin Durmus Evan Hubinger Jackson Kernion
+ PDF Chat	Discovering Language Model Behaviors with Model-Written Evaluations	2023	Ethan Perez Sam Ringer Kamilė Lukošiūtė Karina Nguyen Edwin Chen Scott Heiner Craig Pettit Catherine Olsson Sandipan Kundu Saurav Kadavath
+	Studying Large Language Model Generalization with Influence Functions	2023	Roger Grosse Juhan Bae Cem Anil Nelson Elhage Alex Tamkin Amirhossein Tajdini Benoit Steiner Dustin Li Esin Durmus Ethan Perez
+	Specific versus General Principles for Constitutional AI	2023	Sandipan Kundu Yuntao Bai Saurav Kadavath Amanda Askell A. Callahan Anna Chen Anna Goldie Avital Balwit Azalia Mirhoseini B. T. McLean
+	Evaluating and Mitigating Discrimination in Language Model Decisions	2023	Alex Tamkin Amanda Askell Liane Lovitt Esin Durmus Nicholas Joseph Shauna Kravec Karina Nguyen Jared Kaplan Deep Ganguli
+	Discovering Language Model Behaviors with Model-Written Evaluations	2022	Ethan Perez Sam Ringer Kamilė Lukošiūtė Karina Nguyen Edwin Chen Scott Heiner Craig Pettit Catherine Olsson Sandipan Kundu Saurav Kadavath

Action

Title

Year

Authors

The Capacity for Moral Self-Correction in Large Language Models

2023

Deep Ganguli
Amanda Askell
Nicholas Schiefer
Thomas T. Liao
Kamilė Lukošiūtė
Anna Chen
Anna Goldie
Azalia Mirhoseini
Catherine Olsson
Danny Hernandez

FAIR-Ensemble: When Fairness Naturally Emerges From Deep Ensembling

2023

Wei-Yin Ko
Daniel D’souza
Karina Nguyen
Randall Balestriero
Sara Hooker

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

2023

Ansh Radhakrishnan
Karina Nguyen
Anna Chen
Carol Chen
Carson Denison
Danny Hernandez
Esin Durmus
Evan Hubinger
Jackson Kernion
Kamilė Lukošiūtė

Measuring Faithfulness in Chain-of-Thought Reasoning

2023

Tamera Lanham
Anna Chen
Ansh Radhakrishnan
Benoit Steiner
Carson Denison
Danny Hernandez
Dustin Li
Esin Durmus
Evan Hubinger
Jackson Kernion

+ PDF Chat

Discovering Language Model Behaviors with Model-Written Evaluations

2023

Ethan Perez
Sam Ringer
Kamilė Lukošiūtė
Karina Nguyen
Edwin Chen
Scott Heiner
Craig Pettit
Catherine Olsson
Sandipan Kundu
Saurav Kadavath

Studying Large Language Model Generalization with Influence Functions

2023

Roger Grosse
Juhan Bae
Cem Anil
Nelson Elhage
Alex Tamkin
Amirhossein Tajdini
Benoit Steiner
Dustin Li
Esin Durmus
Ethan Perez

Specific versus General Principles for Constitutional AI

2023

Sandipan Kundu
Yuntao Bai
Saurav Kadavath
Amanda Askell
A. Callahan
Anna Chen
Anna Goldie
Avital Balwit
Azalia Mirhoseini
B. T. McLean

Evaluating and Mitigating Discrimination in Language Model Decisions

2023

Alex Tamkin
Amanda Askell
Liane Lovitt
Esin Durmus
Nicholas Joseph
Shauna Kravec
Karina Nguyen
Jared Kaplan
Deep Ganguli

Discovering Language Model Behaviors with Model-Written Evaluations

2022

Ethan Perez
Sam Ringer
Kamilė Lukošiūtė
Karina Nguyen
Edwin Chen
Scott Heiner
Craig Pettit
Catherine Olsson
Sandipan Kundu
Saurav Kadavath

Common Coauthors

Coauthor	Papers Together
Jared Kaplan	8
Nicholas Joseph	8
Sam McCandlish	7
Ethan Perez	7
Nicholas Schiefer	6
Zac Hatfield-Dodds	6
Kamilė Lukošiūtė	6
Samuel R. Bowman	6
Anna Chen	6
Jackson Kernion	6
Oliver Rausch	5
Esin Durmus	5
Amanda Askell	5
Robin J. Larson	5
Shauna Kravec	5
Tamera Lanham	5
Evan Hubinger	5
Tristan Hume	5
Nelson Elhage	5
Sandipan Kundu	5
Saurav Kadavath	5
Timothy Telleen-Lawton	5
Kamal Ndousse	4
Deep Ganguli	4
Catherine Olsson	4
Jamie Kerr	4
Tom Henighan	4
Dustin Li	4
Yuntao Bai	4
Sam Ringer	3
Roger Grosse	3
Christopher Olah	3
Jack A. Clark	3
Dario Amodei	3
Nova DasSarma	3
Danny Hernandez	3
Dawn Drain	3
Liane Lovitt	3
Newton Cheng	3
Joshua D. Landau	3
Scott G. Johnston	3
Sheer El Showk	3
Michael Sellitto	3
Tom Brown	3
Landon Goldberg	2
Noemi Mercado	2
Jan Brauner	2
Eli Tran-Johnson	2
Benoit Steiner	2
Miranda Zhang	2

Commonly Cited References

Action	Title	Year	Authors	# of times referenced