Um novo estudo das universidades de Hong Kong e Berkeley desafia um dos dogmas do treinamento de inteligência artificial: a necessidade de exemplos rotulados por humanos. A pesquisa mostra que modelos de linguagem (LLMs) e visão (VLMs) generalizam melhor quando aprendem por reforço, sem depender de dados pré-formatados. Em testes, modelos treinados com reforço foram
Informe seu Nome e Email para reportar erro na página da notícia. Obrigado!