SPPO - a UCLA-AGI Collection

这是indexloc提供的服务，不要输入任何密码

UCLA-AGI 's Collections

zephyr-7b-sft-full-SPIN

SPPO

SPPO

updated Jun 29, 2024

Self-Play Preference Optimization

UCLA-AGI/Mistral7B-PairRM-SPPO

Text Generation • 7B • Updated May 7, 2024 • 1.11k • 6
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter1

Text Generation • 7B • Updated May 6, 2024 • 304 • 2
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter2

Text Generation • 7B • Updated May 6, 2024 • 9.27k • 1
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter3

Text Generation • 7B • Updated May 7, 2024 • 9.25k • 5
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter1

Text Generation • 8B • Updated Jun 25, 2024 • 1.11k • • 1
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter2

Text Generation • Updated Jun 25, 2024 • 10.1k
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter3

Text Generation • 8B • Updated Jun 28, 2024 • 10.1k • • 83
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter3

Text Generation • 9B • Updated Jul 1, 2024 • 3.91k • • 125
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter2

Text Generation • 9B • Updated Jul 1, 2024 • 2.83k • • 4
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter1

Text Generation • 9B • Updated Jul 1, 2024 • 2.36k • • 4