sian cao's picture

sian cao

sonald

·

AI & ML interests

AI, big data, OS

Recent Activity

upvoted a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

upvoted an article 14 days ago

Deriving the DPO Loss from First Principles

upvoted an article 17 days ago

Deriving the PPO Loss from First Principles

View all activity

Organizations

spaces 2

Calculator Tool

Answer questions using a simple tool

Chatdemo

models 0

None public yet

datasets 0

None public yet