Abstract:
مطالعات اخیر بازارهای عمدهفروشی برق عموماً براساس مدلهای چندعاملی است، که در آنها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست میآید. از ویژگیهای اصلی این نوع مدلها، امکان یادگیری عوامل از نتایج رفتار خود و سایرین دریک محیط رقابتی است. در بازار عمدهفروشی برق، هرعامل یک واحد تولیدکننده برق است که به صورت مستقل و هوشمند با سایر عاملها برای عرضه برق با قیمتهای پیشنهادی رقابت میکند. فرآیند قیمتگذاری را میتوان یک بازی ایستا فرض نمود که هرروز تکرار میشود. در این بازی هر عامل قیمت پیشنهادی خود را مستقلا اعلام نموده و بهرهبردار با توجه به تقاضای بار مصرفی و محدودیتها، بهترین پیشنهادها را انتخاب مینماید. عامل به صورت عقلائی عمل نموده و با انتخاب استراتژی مناسب، به دنبال بیشینه نمودن سود بلندمدت خود است. در این راستا، عامل از قدرت یادگیری و بهبود استراتژی قیمتگذاری، که نقش بسیار تعیین کننده در موفقیت عامل دارد، استفاده میکند. یادگیری تقویتی یک روش کلاسیک است که در مدلهای چندعاملی امکان یادگیری مبتنی بر سعی و خطا را فراهم مینماید. هدف این مقاله کاربرد و مطالعه روشهای یادگیری تقویتی در مدل چندعاملی بازار برق ایران و مقایسه آنها با دو استراتژی تصادفی و حریصانه است. در این مطالعه، میزان سود واحدها و زمان رسیدن به حالت تعادل به عنوان ملاک ارزیابی در نظر گرفته شده است. نتایج شبیه سازی نشان میدهد، استراتژی یادگیرنده سود عاملها را به طور معناداری افزایش میدهد و سرعت همگرائی به حالت تعادل را بیشتر میکند.
Machine summary:
کاربرد یادگیری تقویتی در یک مدل سازی عامل محور برای بازار عمده فروشی برق ایران 1 محمدرضا اصغری اسکوئی 2 فرهاد فلاحی 3 میثم دوستیزاده 4 سعید مشیری تاریخ دریافت :١٣٩٧/٠٢/٢٦ تاریخ پذیرش :١٣٩٧/٠٦/٢٠ چکیده : مطالعات اخیر بازارهای عمده فروشی برق عموما براساس مدل های چندعاملی است ، که در آن ها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست میآید.
هدف این مقاله کاربرد و مطالعه روش های یادگیری تقویتی در مدل چندعاملی بازار برق ایران و مقایسه آن ها با دو استراتژی تصادفی و حریصانه است .
Reinforcement Learning یادگیری تقویتی از تکنیک های برنامه نویسی پویا استفاده میکنند معمولا مسئله تحت عنوان یک فرایند تصمیم گیری مارکف مدل میشود.
این مقاله از یک مدل عامل محور شناخته شده و معتبر بازار برق ایران استفاده نموده و ضمن ارائه توصیف ریاضی از استراتژی تصمیم گیری مبتنی بر یادگیری تقویتی، تاثیر عملکرد آن را بر سود واحدهای تولیدی در طول زمان بررسی کرده و نتیجه را با دو استراتژی دیگر (استراتژی تصادفی و استراتژی حریصانه ) مقایسه می کند.
آنها مدل چندعاملی با مکانیزم تسویه برمبنای قیمت تسویه بازار (MCP) و تعادل تابع عرضه ٢ (SFE) را استفاده کرده و در قالب یک مسئله نظریه بازی با اطلاعات ناکامل و غیرهمکارانه ، استراتژی بهینه را با کمک یادگیری تقویتی مشخص نمودند.
کراوس ١ و همکاران (٢٠٠٦) یک مدل عامل محور از بازار عمده فروشی برق را درنظر گرفته و ضمن استفاده از استراتژی یادگیری تقویتی شرایط رسیدن به تعادل نش را در صورت وجود، مورد بررسی قرار داده است .