ÀÔ·Â : 2024-06-29 10:25:53
êGPTÀÇ º£À̽ºÀÎ GPT-4 ½Ã¸®Áî AI ¸ðµ¨Àº RLHF(Reinforcement Learning from Human Feedback, Àΰ£ÀÇ Çǵå¹é¿¡ ÀÇÇÑ °È ÇнÀ)¶ó°í ºÒ¸®´Â ±â¹ýÀ¸·Î ±¸ÃàµÈ °ÍÀÌ Æ¯Â¡ÀÌ´Ù. ÀÌ ±â¹ý¿¡¼´Â AI ¸ðµ¨ÀÌ »ý¼ºÇØ Ãâ·ÂÇÏ´Â ´äº¯À» AI Æ®·¹À̳Ê(»ç¶÷)°¡ ºñ±³ ¹× Æò°¡ÇØ Á¶Á¤ÇØ ³ª°¡´Â ¹æ½ÄÀÌ ¾²ÀδÙ.
ÇÏÁö¸¸, Ãß·Ð ¼º´ÉÀ̳ª ¸ðµ¨ÀÌ °³¼±µÇ¾î ÀÀ´äÀÇ Á¤¹Ðµµ°¡ ³ô¾ÆÁú¼ö·Ï ¿À·ù°¡ ´õ¿í ¹Ì¹¦ÇØÁ®¼ AI Æ®·¹À̳ʰ¡ À̸¦ ¹ß°ßÇϱâ Èûµé¾îÁö´Â ÇÑ°è°¡ Á¸ÀçÇÑ´Ù. ÀÌ°ÍÀº RLHF ±â¹ýÀÇ ÇÑ°è·Îµµ ¿©°ÜÁø´Ù. ¿ÀÇÂAI°¡ êGPTÀÇ À߸øµÈ ÀÀ´äÀ» °ËÃâÇϱâ À§ÇÑ AI ¸ðµ¨·Î Å©¸®Æ½GPT¸¦ ±¸ÃàÇÑ ÀÌÀ¯´Ù.
Å©¸®Æ½GPTÀÇ °ËÁõÀÌ ¹Ýµå½Ã¿Ç´Ù°í º¼ ¼ö´Â ¾øÁö¸¸, AI Æ®·¹À̳ʰ¡ Å©¸®Æ½GPTÀÇ Áö¿øÀ» ¹ÞÀ» °æ¿ì ¿À·ù °ËÃâÀÇ Á¤¹Ðµµ¸¦ ³ôÀÏ ¼ö ÀÖ´Ù°í ¿ÀÇÂAI ÃøÀº ¼³¸íÇÑ´Ù. ¿ÀÇÂAI´Â “ÄÚµå ¸®ºä ÀÛ¾÷ ½Ã Å©¸®Æ½GPT¸¦ »ç¿ëÇÒ °æ¿ì, »ç¿ëÇÏÁö ¾Ê´Â °æ¿ìº¸´Ù 60% ÀÌ»ó ¼º´ÉÀÌ Çâ»óµÆ´Ù.”°í ¹àÇû´Ù.
Å©¸®Æ½GPT ¿ª½Ã êGPT¿Í ¸¶Âù°¡Áö·Î RLHF¿¡¼ ÈÆ·Ã ÁßÀÎ °ÍÀº °°Áö¸¸, ¿À·ù°¡ Æ÷ÇÔµÈ µ¥ÀÌÅ͸¦ ÇнÀÇÏ´Â Á¡ÀÌ ´Ù¸£´Ù. ¿¹¸¦ µé¾î Å©¸®Æ½GTP´Â êGPT°¡ ÀÛ¼ºÇÑ ¿À·ù Äڵ忡 AI Æ®·¹À̳ÊÀÇ ½Ç¼ö°¡ ´õÇØÁø ¿À·ù ÄÚµå »ùÇÃÀ» ÇнÀÇÏ°Ô µÈ´Ù.