ÀÔ·Â : 2024-12-20 10:45:36
ÁÖ½Äȸ»ç ¸¶À½¿¡À̾ÆÀÌ(´ëÇ¥ÀÌ»ç À¯ÅÂÁØ)°¡ ¿¬¼¼´ëÇб³ ¹Ì¸£·¦(À¯¿µÀç ±³¼ö)°ú °øµ¿À¸·Î ¿¬±¸ÇÑ ³í¹®ÀÌ ¼¼°è ÃÖ°í ±ÇÀ§ÀÇ ÀΰøÁö´É(AI) ÇÐȸÀÎ ½Å°æÁ¤º¸Ã³¸®½Ã½ºÅÛÇÐȸ(NeurIPS) 2024 ¿öÅ©¼ó Open-World Agents¿¡ ÃÖ¿ì¼ö ¹ßÇ¥(Oral Presentation)·Î ¼±Á¤µÇ¾ú´Ù.
NeurIPS´Â AI ºÐ¾ß¿¡¼ °¡Àå ¿µÇâ·Â ÀÖ´Â ÇÐȸ·Î Æò°¡ ¹ÞÀ¸¸ç, ¸Å³â Àü¼¼°è ¿¬±¸ÀÚµéÀÌ Á¦ÃâÇÑ ¼ö¸¸ °ÇÀÇ ³í¹® Áß ¾ö¼±µÈ ¼Ò¼ö¸¸ÀÌ ÃÖÁ¾ äÅõȴÙ. ÀÌ Áß ÃֽŠ¿¡ÀÌÀüÆ® ¹× ·Îº¸Æ½½º ¼±Çà ±â¼úÀ» ´Ù·ç´Â Open-World Agents ¿öÅ©¼ó¿¡´Â ¾à 100°³ÀÇ ³í¹®ÀÌ Ã¤ÅõǾú´Âµ¥, »óÀ§ 6°³ÀÇ ³í¹®¸¸ÀÌ ÃÖ¿ì¼ö ¹ßÇ¥(Oral Presentation)À¸·Î ¼±Á¤µÇ¾ú´Ù.
»óÀ§ 6°³¿¡ ¼±Á¤µÈ ´Ù¸¥ ¿¬±¸µéÀº ½ºÅÄÆ÷µå ´ëÇб³, Ä«³×±â¸á·Ð ´ëÇб³, ºÏ°æ´ëÇб³ µî ¼¼°èÀûÀÎ ¸í¹®´ë¿Í µö¸¶Àεå, ¸¶ÀÌÅ©·Î¼ÒÇÁÆ®, ¸ÞŸ¿Í °°Àº ±Û·Î¹ú ºòÅ×Å© ±â¾÷µéÀÇ ¼º°ú´Ù. ÀÌ´Â À̹ø ¸¶À½¿¡À̾ÆÀÌÀÇ ±â¼úÀû ¼º°ú°¡ ¼¼°èÀûÀ¸·Î ÀÎÁ¤ ¹ÞÀ» ÀÚ°ÝÀÌ ÃæºÐÇÏ´Ù´Â °ÍÀ» ÀǹÌÇÑ´Ù. À̹ø¿¡ ¼±Á¤µÈ ³í¹® "Integrating Visual and Linguistic Instructions for Context-Aware Navigation Agents"´Â ÃÖ±Ù AI ¾÷°è¿¡¼ °¡Àå ÁÖ¸ñ ÇÏ°í ÀÖ´Â ºÐ¾ß Áß ÇϳªÀÎ End-to-End Robot Foundation Model ºÐ¾ßÀÇ ¿¬±¸´Ù.
½±°Ô ¸»ÇØ ChatGPT¿Í °°Àº »ý¼ºÇü AI¸¦ ±â¹ÝÀ¸·Î ·Îº¿À̳ª Â÷·®À» Á¦¾îÇÏ´Â ±â¼úÀÌ´Ù. ¸¶À½¿¡À̾ÆÀÌ´Â À̹ø ³í¹®¿¡¼ ±¹³» ÃÖÃÊ·Î VLA(Vision Language Action) ¸ðµ¨ “CANVAS”¸¦ °ø°³Çß´Ù. VLA(Vision Language Action)´Â Ä«¸Þ¶ó·Î ÁÖº¯ ȯ°æÀ» º¸°í(Vision), ¾ð¾îÀûÀ¸·Î ÀÌÇØÇϸç(Language), À̵¿Çü ·Îº¿À» Á¦¾î(Action)ÇÏ´Â »ý¼ºÇü AI ±â¼úÀÇ ±Ã±ØÀûÀÎ ¹ßÀü ÇüÅ´Ù.
Å×½½¶ó, ÇDZԾîAI, ½ºÅ³µåAI¿Í °°Àº ±Û·Î¹ú ¼±µµ ±â¾÷µéÀÌ ¾Õ´ÙÅõ¾î õ¹®ÇÐÀûÀ¸·Î ÅõÀÚÇÏ°í ÀÖ´Â ±â¼úÀ̱⵵ ÇÏ´Ù. ¸¶À½¿¡À̾ÆÀÌ´Â ÃÖ±Ù ÀÌ ±â¼úÀ» ±â¹ÝÀ¸·Î ÁÖÇà ºÐ¾ß¿¡ Æ¯ÈµÈ Á¦Ç° “WoRV(¿öºê)”¸¦ °³¹ßÇß´Ù. ³»³â »ó¹Ý±â ³»¿¡ ³ó±â°è¿¡ žÀçÇÑ Á¦Ç°À» Ãâ½ÃÇÒ ¿¹Á¤ÀÌ´Ù.
ÀϹÝÀûÀ¸·Î ¾ß¿Ü ³óÁö¿¡¼´Â ±âÁ¸ ½Ç³» ÁÖÇà ·Îº¿µéÀÌ ´ëºÎºÐ äÅÃÇÏ°í ÀÖ´Â SLAM(Simultaneous Localization and Mapping) ¹æ½ÄÀÌ Àß ÀÛµ¿ÇÏÁö ¾Ê¾Æ, ³ó±â°è ÀÚÀ²ÁÖÇàÀº »ó´çÈ÷ ³À̵µ°¡ ³ô´Ù°í ¾Ë·ÁÁ® ÀÖ´Ù. WoRV ¸ðµ¨Àº º¯È°¡ ÀæÀº ¾ß¿Ü ȯ°æÀ̳ª ÁÖº¯ Á¶°ÇÀÌ ºÒ±ÔÄ¢ÇÑ »óȲ¿¡¼µµ ³ôÀº ¼º´ÉÀ» ¹ßÈÖÇϱ⠶§¹®¿¡ ³ó±â°è, û¼ÒÂ÷, ±º¿ë ÀÚÀ² À̵¿Ã¼¿Í °°ÀÌ È¯°æ ÀûÀÀ·ÂÀÌ Áß¿äÇÑ ÁÖÇà ½Ã½ºÅÛ¿¡ È°¿ëÇϱâ ÀûÇÕÇÏ´Ù.