Haipeng Luo

Generating author description...

All published works

Action	Title	Year	Authors
+ PDF Chat	Corrupted Learning Dynamics in Games	2024	Taira Tsuchiya Shinji Ito Haipeng Luo
+ PDF Chat	Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena	2024	Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Qingwei Lin Jianguang Lou Shifeng Chen Yansong Tang Weizhu Chen
+ PDF Chat	Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms	2024	Yang Cai Gabriele Farina Julien Grand-Clément Christian Kroer Chung‐Wei Lee Haipeng Luo Weiqiang Zheng
+ PDF Chat	Provably Efficient Interactive-Grounded Learning with Personalized Reward	2024	Mengxiao Zhang Yuheng Zhang Haipeng Luo Paul Mineiro
+ PDF Chat	No-Regret Learning for Fair Multi-Agent Social Welfare Optimization	2024	Mengxiao Zhang Ramiro Deo-Campo Vuong Haipeng Luo
+ PDF Chat	Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback	2024	Asaf Cassel Haipeng Luo Aviv Rosenberg Dmitry Sotnikov
+ PDF Chat	Tractable Local Equilibria in Non-Concave Games	2024	Yang Cai Constantinos Daskalakis Haipeng Luo Chen-Yu Wei Weiqiang Zheng
+ PDF Chat	Contextual Multinomial Logit Bandits with General Value Functions	2024	Mengxiao Zhang Haipeng Luo
+ PDF Chat	Efficient Contextual Bandits with Uninformed Feedback Graphs	2024	Mengxiao Zhang Yuheng Zhang Haipeng Luo Paul Mineiro
+ PDF Chat	Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games	2024	Yang Cai Haipeng Luo Chen-Yu Wei Weiqiang Zheng
+ PDF Chat	Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	2023	Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang
+ PDF Chat	Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	2023	Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang
+	Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	2023	Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang
+	Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	2023	Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang
+	Refined Regret for Adversarial MDPs with Linear Function Approximation	2023	Yan Dai Haipeng Luo Chen-Yu Wei Julian Zimmert
+	Average-Constrained Policy Optimization	2023	Akhil Agnihotri Rahul Jain Haipeng Luo
+	Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms	2023	Tiancheng Jin Junyan Liu Haipeng Luo
+	Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback	2023	Yang Cai Haipeng Luo Chen-Yu Wei Weiqiang Zheng
+	Regret Matching+: (In)Stability and Fast Convergence in Games	2023	Gabriele Farina Julien Grand-Clément Christian Kroer Chung‐Wei Lee Haipeng Luo
+	No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions	2023	Tiancheng Jin Junyan Liu Chloé Rouyer William S. C. Chang Chen-Yu Wei Haipeng Luo
+	WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct	2023	Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian–Guang Lou Chongyang Tao Xiubo Geng Qingwei Lin Shifeng Chen Dongmei Zhang
+	Online Learning in Contextual Second-Price Pay-Per-Click Auctions	2023	Mengxiao Zhang Haipeng Luo
+	Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games	2023	Yang Cai Gabriele Farina Julien Grand-Clément Christian Kroer Chung‐Wei Lee Haipeng Luo Weiqiang Zheng
+ PDF Chat	Near-Optimal No-Regret Learning for General Convex Games	2022	Gabriele Farina Ioannis Anagnostides Haipeng Luo Chung‐Wei Lee Christian Kroer Tüomas Sandholm
+	Adaptive Bandit Convex Optimization with Heterogeneous Curvature	2022	Haipeng Luo Mengxiao Zhang Peng Zhao
+	Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the Gap Between Learning in Extensive-Form and Normal-Form Games	2022	Gabriele Farina Chung‐Wei Lee Haipeng Luo Christian Kroer
+	Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints	2022	Li-Yu Chen Rahul Jain Haipeng Luo
+	Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games	2022	Ioannis Anagnostides Gabriele Farina Christian Kroer Chung‐Wei Lee Haipeng Luo Tüomas Sandholm
+	No-Regret Learning in Time-Varying Zero-Sum Games	2022	Mengxiao Zhang Peng Zhao Haipeng Luo Zhihua Zhou
+	Policy Optimization for Stochastic Shortest Path	2022	Liyu Chen Haipeng Luo Aviv Rosenberg
+	Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits	2022	Haipeng Luo Mengxiao Zhang Peng Zhao Zhi‐Hua Zhou
+	Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback	2022	Tiancheng Jin Tal Lancewicki Haipeng Luo Yishay Mansour Aviv Rosenberg
+	Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback	2022	Yan Dai Haipeng Luo Liyu Chen
+	Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments	2022	Li-Yu Chen Haipeng Luo
+	Clairvoyant Regret Minimization: Equivalence with Nemirovski's Conceptual Prox Method and Extension to General Convex Games	2022	Gabriele Farina Christian Kroer Chung‐Wei Lee Haipeng Luo
+	Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs	2022	Haipeng Luo Hanghang Tong Mengxiao Zhang Yuheng Zhang
+	Near-Optimal No-Regret Learning Dynamics for General Convex Games	2022	Gabriele Farina Ioannis Anagnostides Haipeng Luo Chung‐Wei Lee Christian Kroer Tüomas Sandholm
+	No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand Distribution	2022	Mengxiao Zhang Shi Chen Haipeng Luo Yingfei Wang
+	Last-iterate Convergence in Extensive-Form Games	2021	Chung‐Wei Lee Christian Kroer Haipeng Luo
+	Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path	2021	Liyu Chen Mehdi Jafarnia-Jahromi Rahul Jain Haipeng Luo
+	Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously	2021	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang Xiaojin Zhang
+	Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition	2021	Liyu Chen Haipeng Luo Chen-Yu Wei
+ PDF Chat	The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition	2021	Tiancheng Jin Longbo Huang Haipeng Luo
+ PDF Chat	Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously	2021	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang Xiaojin Zhang
+	Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case	2021	Liyu Chen Haipeng Luo
+	Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach	2021	Chen-Yu Wei Haipeng Luo
+ PDF Chat	Impossible Tuning Made Possible: A New Expert Algorithm and Its Applications	2021	Liyu Chen Haipeng Luo Chen-Yu Wei
+	Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously	2021	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang Xiaojin Zhang
+	Last-iterate Convergence of Decentralized Optimistic Gradient Descent/Ascent in Infinite-horizon Competitive Markov Games	2021	Chen-Yu Wei Chung‐Wei Lee Mengxiao Zhang Haipeng Luo
+	Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path	2021	Liyu Chen Mehdi Jafarnia-Jahromi Rahul Jain Haipeng Luo
+	Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case	2021	Liyu Chen Haipeng Luo
+	Online Learning for Stochastic Shortest Path Model via Posterior Sampling	2021	Mehdi Jafarnia-Jahromi Liyu Chen Rahul Jain Haipeng Luo
+	Last-iterate Convergence in Extensive-Form Games	2021	Chung‐Wei Lee Christian Kroer Haipeng Luo
+	Impossible Tuning Made Possible: A New Expert Algorithm and Its Applications	2021	Chen-Yu Wei Haipeng Luo Liyu Chen
+	Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach	2021	Chen-Yu Wei Haipeng Luo
+	Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses	2021	Haipeng Luo Chen-Yu Wei Chung‐Wei Lee
+	The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition	2021	Tiancheng Jin Longbo Huang Haipeng Luo
+	Improved No-Regret Algorithms for Stochastic Shortest Path with Linear MDP	2021	Liyu Chen Rahul Jain Haipeng Luo
+ PDF Chat	Oracle-efficient Online Learning and Auction Design	2020	Miroslav Dudı́k Nika Haghtalab Haipeng Luo Robert E. Schapire Vasilis Syrgkanis Jennifer Wortman Vaughan
+ PDF Chat	Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation	2020	Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Rahul Jain
+ PDF Chat	Comparator-adaptive Convex Bandits	2020	Dirk van der Hoeven Ashok Cutkosky Haipeng Luo
+	Active Online Learning with Hidden Shifting Domains	2020	Yining Chen Haipeng Luo Tengyu Ma Chicheng Zhang
+	Linear Last-iterate Convergence for Matrix Games and Stochastic Games.	2020	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang
+ PDF Chat	Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs	2020	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang
+	Active Online Domain Adaptation.	2020	Yining Chen Haipeng Luo Tengyu Ma Chicheng Zhang
+ PDF Chat	A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	2020	Chung‐Wei Lee Haipeng Luo Mengxiao Zhang
+	Taking a hint: How to leverage loss predictors in contextual bandits?	2020	Chen-Yu Wei Haipeng Luo Alekh Agarwal
+	Adversarial Online Learning with Changing Action Sets: Efficient Algorithms with Approximate Regret Bounds	2020	Ehsan Emamjomeh-Zadeh Chen-Yu Wei Haipeng Luo David Kempe
+	A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs with Near-optimal Regret	2020	Mehdi Jafarnia-Jahromi Chen-Yu Wei Rahul Jain Haipeng Luo
+	Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition	2020	Tiancheng Jin Haipeng Luo
+	Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs	2020	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang
+	Open Problem: Model Selection for Contextual Bandits	2020	Dylan J. Foster Akshay Krishnamurthy Haipeng Luo
+	Comparator-adaptive Convex Bandits	2020	Dirk van der Hoeven Ashok Cutkosky Haipeng Luo
+	A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	2020	Chung‐Wei Lee Haipeng Luo Mengxiao Zhang
+	Linear Last-iterate Convergence in Constrained Saddle-point Optimization	2020	Chen-Yu Wei Chung‐Wei Lee Mengxiao Zhang Haipeng Luo
+	Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition	2020	Liyu Chen Haipeng Luo Chen-Yu Wei
+	Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation	2020	Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Rahul Jain
+	Active Online Learning with Hidden Shifting Domains	2020	Yining Chen Haipeng Luo Tengyu Ma Chicheng Zhang
+	Model Selection for Contextual Bandits	2019	Dylan J. Foster Akshay Krishnamurthy Haipeng Luo
+	Improved Path-length Regret Bounds for Bandits	2019	Sébastien Bubeck Yuanzhi Li Haipeng Luo Chen-Yu Wei
+	Beating Stochastic and Adversarial Semi-bandits Optimally and Simultaneously	2019	Julian Zimmert Haipeng Luo Chen-Yu Wei
+	A New Algorithm for Non-stationary Contextual Bandits: Efficient, Optimal, and Parameter-free	2019	Yifang Chen Chung‐Wei Lee Haipeng Luo Chen-Yu Wei
+	Hypothesis Set Stability and Generalization	2019	Dylan J. Foster Spencer Greenberg Satyen Kale Haipeng Luo Mehryar Mohri Karthik Sridharan
+	Model selection for contextual bandits	2019	Dylan J. Foster Akshay Krishnamurthy Haipeng Luo
+	Equipping Experts/Bandits with Long-term Memory	2019	Kai Zheng Haipeng Luo Ilias Diakonikolas Liwei Wang
+	Improved Path-length Regret Bounds for Bandits	2019	Sébastien Bubeck Yuanzhi Li Haipeng Luo Chen-Yu Wei
+	Hypothesis Set Stability and Generalization	2019	Dylan J. Foster Spencer Greenberg Satyen Kale Haipeng Luo Mehryar Mohri Karthik Sridharan
+	Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes	2019	Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Hiteshi Sharma Rahul Jain
+	Learning Adversarial MDPs with Bandit Feedback and Unknown Transition	2019	Chi Jin Tiancheng Jin Haipeng Luo Suvrit Sra Tiancheng Yu
+	Fair Contextual Multi-Armed Bandits: Theory and Experiments	2019	Yifang Chen Alex Cuellar Haipeng Luo Jignesh Modi Heramb Nemlekar Stefanos Nikolaidis
+	Ramsey Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	6. Multicolor Classical Ramsey Numbers	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	3. Bi-Color Diagonal Classical Ramsey Numbers	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	16. Set-Coloring Ramsey Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	4. Paley Graphs And Lower Bounds For R(K, K)	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	10. Other Ramsey-Type Problems In Graph Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	14. Games In Ramsey Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	12. More Problems Of Ramsey Type In Additive Number Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	2. Ramsey Theory	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	11. On Van Der Waerden Numbers And Szemerédi’S Theorem	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	15. Local Ramsey Theory	2018	XU Xiao-dong Meilian Liang Haipeng Luo
+	5. Bi-Color Off-Diagonal Classical Ramsey Numbers	2018	Xiaodong Xu Meilian Liang Haipeng Luo
+	Efficient Online Portfolio with Logarithmic Regret	2018	Haipeng Luo Chen-Yu Wei Kai Zheng
+	More Adaptive Algorithms for Adversarial Bandits	2018	Chen-Yu Wei Haipeng Luo
+	Practical Contextual Bandits with Regression Oracles	2018	Dylan J. Foster Alekh Agarwal Miroslav Dudı́k Haipeng Luo Robert E. Schapire
+	Logistic Regression: The Importance of Being Improper	2018	Dylan J. Foster Satyen Kale Haipeng Luo Mehryar Mohri Karthik Sridharan
+	Efficient Online Portfolio with Logarithmic Regret	2018	Haipeng Luo Chen-Yu Wei Kai Zheng
+ PDF Chat	Oracle-Efficient Online Learning and Auction Design	2017	Miroslav Dudı́k Nika Haghtalab Haipeng Luo Robert E. Schapire Vasilis Syrgkanis Jennifer Wortman Vaughan
+	Efficient Contextual Bandits in Non-stationary Worlds	2017	Haipeng Luo Chen-Yu Wei Alekh Agarwal John Langford
+	Corralling a Band of Bandit Algorithms	2016	Alekh Agarwal Haipeng Luo Behnam Neyshabur Robert E. Schapire
+	Efficient second order online learning by sketching	2016	Haipeng Luo Alekh Agarwal Nicolò Cesa‐Bianchi John Langford
+	Oracle-Efficient Learning and Auction Design.	2016	Miroslav Dudı́k Nika Haghtalab Haipeng Luo Robert E. Schapire Vasilis Syrgkanis Jennifer Wortman Vaughan
+	Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits	2016	Vasilis Syrgkanis Haipeng Luo Akshay Krishnamurthy Robert E. Schapire
+	Efficient Second Order Online Learning by Sketching	2016	Haipeng Luo Alekh Agarwal Nicolò Cesa‐Bianchi John Langford
+	Variance-Reduced and Projection-Free Stochastic Optimization	2016	Elad Hazan Haipeng Luo
+	Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits	2016	Vasilis Syrgkanis Haipeng Luo Akshay Krishnamurthy Robert E. Schapire
+	Oracle-Efficient Online Learning and Auction Design	2016	Miroslav Dudı́k Nika Haghtalab Haipeng Luo Robert E. Schapire Vasilis Syrgkanis Jennifer Wortman Vaughan
+	Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits	2016	Vasilis Syrgkanis Haipeng Luo Akshay Krishnamurthy Robert E. Schapire
+	Corralling a Band of Bandit Algorithms	2016	Alekh Agarwal Haipeng Luo Behnam Neyshabur Robert E. Schapire
+	Online gradient boosting	2015	Alina Beygelzimer Elad Hazan Satyen Kale Haipeng Luo
+	Achieving All with No Parameters: Adaptive NormalHedge	2015	Haipeng Luo Robert E. Schapire
+	Optimal and Adaptive Algorithms for Online Boosting	2015	Alina Beygelzimer Satyen Kale Haipeng Luo
+	Online Gradient Boosting	2015	Alina Beygelzimer Elad Hazan Satyen Kale Haipeng Luo
+	Fast Convergence of Regularized Learning in Games	2015	Vasilis Syrgkanis Alekh Agarwal Haipeng Luo Robert E. Schapire
+	A Drifting-Games Analysis for Online Learning and Applications to Boosting	2014	Haipeng Luo Robert E. Schapire
+	Accelerated Parallel Optimization Methods for Large Scale Machine Learning	2014	Haipeng Luo Patrick Haffner Jean-François Paiement
+	A Drifting-Games Analysis for Online Learning and Applications to Boosting	2014	Haipeng Luo Robert E. Schapire
+	Towards Minimax Online Learning with Unknown Time Horizon	2013	Haipeng Luo Robert E. Schapire
+	Towards Minimax Online Learning with Unknown Time Horizon	2013	Haipeng Luo Robert E. Schapire
+	Online Learning with Unknown Time Horizon.	2013	Haipeng Luo Robert E. Schapire
+ PDF Chat	Upper and lower bounds for $F_v(4,4;5)$	2010	Xiaodong Xu Haipeng Luo Zehui Shao
+ PDF Chat	A Generalization of Generalized Paley Graphs and New Lower Bounds for $R(3,q)$	2010	Wu Kang Wenlong Su Haipeng Luo Xiaodong Xu
+	New Lower Bound for Diagonal Ramsey Number R(20,20)	2010	Haipeng Luo
+	Bounds for two multicolor vertex Folkman numbers	2009	Haipeng Luo
+	New lower bounds for seven classical Ramsey numbers <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" altimg="si10.gif" display="inline" overflow="scroll"><mml:mi>R</mml:mi><mml:mrow><mml:mo>(</mml:mo><mml:mn>3</mml:mn><mml:mo>,</mml:mo><mml:mi>q</mml:mi><mml:mo>)</mml:mo></mml:mrow></mml:math>	2008	Wu Kang Wenlong Su Haipeng Luo Xiaodong Xu
+	Two New Lower Bounds for Classical Ramsey Numbers	2008	Haipeng Luo
+	New Inequalities on Vertex Folkman Numbers	2006	Xiaodong Xu Haipeng Luo Wen-Long Su Wu Kang
+	Four New Lower Bounds for Classical Ramsey Numbers R(3,q)	2006	Haipeng Luo Wenlong Su
+	Some Notes on Lower Bound for Ramsey Numbers Using Patching Method	2005	Haipeng Luo
+	Edge colorings of the complete graph K149 and the lower bounds of three Ramsey numbers	2002	Guiqing Li Wenlong Su Haipeng Luo
+	Lower bounds of Ramsey numbers based on cubic residues	2002	Wenlong Su Qiao Li Haipeng Luo Guiqing Li
+	The properties of self-complementary graphs and new lower bounds for diagonal Ramsey numbers.	2002	Haipeng Luo Wenlong Su Zhenchong Li
+	On Decompositions of a Complete Graph into Circulant Graphs and the Lower Bounds of Four Ramsey Numbers	2000	Haipeng Luo
+	Lower bounds for multicolor classical Ramsey numbers	1999	Wenlong Su Haipeng Luo Qiao Li
+	New lower bounds for classical Ramsey numbers R(5,13) and R(5,14)	1999	Wenlong Su Haipeng Luo Yun-Qiu Shen
+	New lower bounds of fifteen classical Ramsey numbers.	1999	Wenlong Su Haipeng Luo Zhengyou Zhang Guiqing Li
+	New lower bounds of classical Ramsey numbersR(6, 12),R(6, 14) andR(6, 15)	1998	Haipeng Luo Wenlong Su Qiao Li
+	New lower bounds of classical Ramsey numbersR(4, 12),R(5, 11) andR(5, 12)	1998	Wenlong Su Haipeng Luo Qiao Li

Common Coauthors

Coauthor	Papers Together
Chen-Yu Wei	34
Chung‐Wei Lee	22
Mengxiao Zhang	19
Robert E. Schapire	17
Meilian Liang	11
Wenlong Su	11
Christian Kroer	10
Alekh Agarwal	8
Gabriele Farina	8
Liyu Chen	8
Rahul Jain	8
Tiancheng Jin	7
Dylan J. Foster	7
Vasilis Syrgkanis	7
Xiaodong Xu	7
Mehdi Jafarnia-Jahromi	7
Satyen Kale	6
Akshay Krishnamurthy	6
Miroslav Dudík	5
Xiaodong Xu	5
Wanli Ouyang	4
Qiao Li	4
Wenhao Wu	4
Jingdong Wang	4
Liyu Chen	4
Jennifer Wortman Vaughan	4
Nika Haghtalab	4
Julien Grand-Clément	3
Aviv Rosenberg	3
Karthik Sridharan	3
Chicheng Zhang	3
John Langford	3
Yang Cai	3
Alina Beygelzimer	3
Mehryar Mohri	3
Ioannis Anagnostides	3
Xiaojin Zhang	3
Yining Chen	3
Elad Hazan	3
Weiqiang Zheng	3
Xiaodong Xu	3
Wu Kang	3
Tüomas Sandholm	3
Guiqing Li	3
Peng Zhao	3
Kai Zheng	3
Sébastien Bubeck	2
Dirk van der Hoeven	2
Shifeng Chen	2
Ashok Cutkosky	2

Commonly Cited References

Action	Title	Year	Authors	# of times referenced
+	Online convex programming and generalized infinitesimal gradient ascent	2003	Martin Zinkevich	12
+	Is Q-learning Provably Efficient?	2018	Chi Jin Zeyuan Allen-Zhu Sébastien Bubeck Michael I. Jordan	11
+	Small Ramsey Numbers	2011	Stanisław Radziszowski	10
+	Contextual Bandit Algorithms with Supervised Learning Guarantees	2010	Alina Beygelzimer John Langford Lihong Li Lev Reyzin Robert E. Schapire	9
+	Online Convex Optimization in Adversarial Markov Decision Processes	2019	Aviv Rosenberg Yishay Mansour	8
+ PDF Chat	Combinatorial Relations and Chromatic Graphs	1955	Robert E. Greenwood Andrew M. Gleason	7
+	Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning	2018	Ronan Fruit Matteo Pirotta Alessandro Lazaric Ronald Ortner	6
+ PDF Chat	Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs	2020	Chung‐Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang	6
+	Optimization, Learning, and Games with Predictable Sequences	2013	Sasha Rakhlin Karthik Sridharan	6
+	Stochastic Shortest Path with Adversarially Changing Costs	2020	Aviv Rosenberg Yishay Mansour	5
+	New lower bounds of classical Ramsey numbersR(4, 12),R(5, 11) andR(5, 12)	1998	Wenlong Su Haipeng Luo Qiao Li	5
+	The computational power of optimization in online learning	2016	Elad Hazan Tomer Koren	5
+	Adversarial Stochastic Shortest Path.	2020	Aviv Rosenberg Yishay Mansour	5
+	Improved Path-length Regret Bounds for Bandits	2019	Sébastien Bubeck Yuanzhi Li Haipeng Luo Chen-Yu Wei	5
+ PDF Chat	Introduction to Online Convex Optimization	2016	Elad Hazan	5
+	Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits	2016	Vasilis Syrgkanis Haipeng Luo Akshay Krishnamurthy Robert E. Schapire	5
+	REGAL: A Regularization based Algorithm for Reinforcement Learning in Weakly Communicating MDPs	2012	Peter L. Bartlett Ambuj Tewari	4
+	A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	2020	Chung‐Wei Lee Haipeng Luo Mengxiao Zhang	4
+	Near-optimal Regret Bounds for Stochastic Shortest Path	2020	Aviv Rosenberg Alon Cohen Yishay Mansour Haim Kaplan	4
+	Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP	2019	Kefan Dong Yuanhao Wang Xiaoyu Chen Liwei Wang	4
+	Unconstrained Online Linear Learning in Hilbert Spaces: Minimax Algorithms and Normal Approximations	2014	H. Brendan McMahan Francesco Orabona	4
+	New lower bounds for classical Ramsey numbers R(5,13) and R(5,14)	1999	Wenlong Su Haipeng Luo Yun-Qiu Shen	4
+	Towards minimax policies for online linear optimization with bandit feedback	2012	Sébastien Bubeck Nicolò Cesa‐Bianchi Sham M. Kakade	4
+ PDF Chat	An Analysis of Stochastic Shortest Path Problems	1991	Dimitri P. Bertsekas John N. Tsitsiklis	4
+	Black-Box Reductions for Parameter-free Online Learning in Banach Spaces	2018	Ashok Cutkosky Francesco Orabona	4
+	New lower bounds of fifteen classical Ramsey numbers.	1999	Wenlong Su Haipeng Luo Zhengyou Zhang Guiqing Li	4
+	Efficient Optimal Learning for Contextual Bandits	2011	Miroslav Dudı́k Daniel Hsu Satyen Kale Nikos Karampatziakis John Langford Lev Reyzin Tong Zhang	4
+ PDF Chat	Corruption-Robust Exploration in Episodic Reinforcement Learning	2024	Thodoris Lykouris Max Simchowitz Aleksandrs Slivkins W. Sun	4
+	Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition	2021	Liyu Chen Haipeng Luo Chen-Yu Wei	4
+	Lower bounds for multicolor classical Ramsey numbers	1999	Wenlong Su Haipeng Luo Qiao Li	4
+ PDF Chat	New Ramsey Bounds from Cyclic Graphs of Prime Order	1997	Neil J. Calkin Paul Erdös Craig A. Tovey	4
+	A Linearly Convergent Conditional Gradient Algorithm with Applications to Online and Stochastic Optimization	2013	Dan Garber Elad Hazan	3
+	Provably Efficient Reinforcement Learning with Linear Function Approximation	2019	Chi Jin Zhuoran Yang Zhaoran Wang Michael I. Jordan	3
+ PDF Chat	Non-Stationary Stochastic Optimization	2015	Omar Besbes Yonatan Gur Assaf Zeevi	3
+	Variance-Aware Regret Bounds for Undiscounted Reinforcement Learning in MDPs	2018	Mohammad Sadegh Talebi Odalric-Ambrym Maillard	3
+	Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function	2019	Zihan Zhang Xiangyang Ji	3
+	Model Selection for Contextual Bandits	2019	Dylan J. Foster Akshay Krishnamurthy Haipeng Luo	3
+	Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case	2021	Liyu Chen Haipeng Luo	3
+	Asynchronous Methods for Deep Reinforcement Learning	2016	Volodymyr Mnih Adrià Puigdomènech Badia Mehdi Mirza Alex Graves Tim Harley Timothy Lillicrap David Silver Koray Kavukcuoglu	3
+	A parameter-free hedging algorithm	2009	Kamalika Chaudhuri Yoav Freund Daniel Hsu	3
+	Projection-free Online Learning	2012	Elad Hazan Satyen Kale	3
+	Learning to Optimize under Non-Stationarity	2018	Wang Chi Cheung David Simchi‐Levi Ruihao Zhu	3
+	Stochastic bandits robust to adversarial corruptions	2018	Thodoris Lykouris Vahab Mirrokni Renato Paes Leme	3
+	More Adaptive Algorithms for Adversarial Bandits	2018	Chen-Yu Wei Haipeng Luo	3
+	Proximal Policy Optimization Algorithms	2017	John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov	3
+	ON THE LIKELIHOOD THAT ONE UNKNOWN PROBABILITY EXCEEDS ANOTHER IN VIEW OF THE EVIDENCE OF TWO SAMPLES	1933	W. R THOMPSON	3
+	New lower bounds of classical Ramsey numbersR(6, 12),R(6, 14) andR(6, 15)	1998	Haipeng Luo Wenlong Su Qiao Li	3
+ PDF Chat	Construction of Special Edge-Chromatic Graphs	1965	J. G. Kalbfleisch	3
+	The value of the Ramsey number <i>r</i>(3, 8)	1992	Brendan D. McKay Min Zhang	3
+	An Improved Parametrization and Analysis of the EXP3++ Algorithm for Stochastic and Adversarial Bandits	2017	Yevgeny Seldin Gábor Lugosi	3