Σεμινάριο Επιχειρησιακής Έρευνας (MAE839)
- English version
- Περιγράμματα Προπτυχιακών Μαθημάτων
- Τροποποίηση Περιγράμματος (η δυνατότητα αυτή απευθύνεται αποκλειστικά στα μέλη ΔΕΠ του Τμήματος)
- Τμήμα Μαθηματικών
- Αποθήκευση ως PDF ή Εκτύπωση (για αποθήκευση ως PDF, κάντε την σχετική επιλογή στη λίστα εκτυπωτών που θα εμφανιστεί)
Γενικά
Σχολή | Σχολή Θετικών Επιστημών |
---|---|
Τμήμα | Τμήμα Μαθηματικών |
Επίπεδο Σπουδών | Προπτυχιακό |
Κωδικός Μαθήματος | MAE839 |
Εξάμηνο | 8 |
Τίτλος Μαθήματος | Σεμινάριο Επιχειρησιακής Έρευνας: Μαρκοβιανές Διαδικασίες Αποφάσεων και Ενισχυτική Μάθηση |
Αυτοτελείς Διδακτικές Δραστηριότητες | Διαλέξεις, παρουσιάσεις και Ασκήσεις (Εβδομαδιαίες Ώρες Διδασκαλίας: 3, Πιστωτικές Μονάδες: 6) |
Τύπος Μαθήματος | Ειδίκευσης |
Προαπαιτούμενα Μαθήματα |
Δεν υπάρχουν. Συνίστανται τα μαθήματα«Εισαγωγή στις Πιθανότητες»,«Στοχαστικές Διαδικασίες» και «Θέματα Επιχειρησιακής Έρευνας»: Βασικές γνώσεις θεωρίας πιθανοτήτων, θεωρίας Μαρκοβιανών αλυσίδων διακριτού χρόνου και δυναμικού προγραμματισμού. |
Γλώσσα Διδασκαλίας και Εξετάσεων |
Ελληνικά. |
Το Μάθημα Προσφέρεται σε Φοιτητές Erasmus | Όχι. |
Ηλεκτρονική Σελίδα Μαθήματος (URL) | Δείτε το eCourse, την Πλατφόρμα Ασύγχρονης Εκπαίδευσης του Πανεπιστημίου Ιωαννίνων. |
Μαθησιακά Αποτελέσματα
Μαθησιακά Αποτελέσματα |
Η θεωρία των διαδικασιών απόφασης Markov (MarkovDecisionProcesses-MDPs) - επίσης γνωστή ως ακολουθιακή θεωρία απόφασης (sequentialdecisionmaking), στοχαστικός έλεγχος ή στοχαστικός δυναμικός προγραμματισμός - μελετά τη ακολουθιακή βελτιστοποίηση στοχαστικών συστημάτων ελέγχοντας τον μηχανισμό μετάβασής τους με την πάροδο του χρόνου. Συγκεκριμένα, παρέχει μεθοδολογίες/αλγόριθμουςβέλτιστης επίλυσης για ένα ευρύ φάσμα προβλημάτων που αφορούν διαδοχικές αποφάσεις σε ένα τυχαίο περιβάλλον μοντελοποιημένο από μια αλυσίδα Markov. Οι MDPs έχουν εφαρμογές σε πολλούς τομείς, συμπεριλαμβανομένης της διαχείρισης εσόδων (revenuemanagement), έλεγχος ουρών αναμονής, χρηματοοικονομικά, τηλεπικοινωνίες, βιομηχανία, υγείακ.α.. Αποτελούν το μαθηματικό εργαλείο μοντελοποίησης προβλημάτων που εμφανίζεται η ενισχυτική μάθηση (ReinforcementLearning-RL). Η RLαποτελεί μια από τις πιο ανερχόμενες κατηγορίες Μηχανικής Μάθησης, λόγω της μεγάλης ευελιξίας που διαθέτουν οι αλγόριθμοι της, στην διαχείριση μεγάλων χώρων καταστάσεων και άγνωστων πιθανοτήτων μετάβασης, σε προβλήματα που μοντελοποιούνται ως MDPs. Η εν λόγω ερευνητική περιοχή παρέχει μεθόδους και τεχνικές για την προσέγγιση της βέλτιστης τιμής και στρατηγικής μεγάλης κλίμακας προβλημάτων απόφασης Markov. Στόχος του μαθήματος είναι οι φοιτητές:
Στο τέλος του μαθήματος, ο φοιτητής θα μπορεί:
|
---|---|
Γενικές Ικανότητες |
Οι ειδικότερες γενικές ικανότητες καθορίζονται από τον εκάστοτε διδάσκοντα. |
Περιεχόμενο Μαθήματος
Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε πεπερασμένο χρονικό ορίζοντα, Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε άπειρο χρονικό ορίζοντα. Ιδιότητες εξίσωσης Bellman, συστολής και μονοτονίας, αλγόριθμοι βελτίωσης πολιτικών, gradient descent, mirror descent and stochastic gradient descent. Βασικές αρχές ενισχυτικής μάθησης, εισαγωγή σε μια απλουστευμένη υποκατηγορία προβλημάτων Ενισχυτικής Μάθησης γνωστή και ως Multi-Armed Bandits. Μέθοδοι ενισχυτικής μάθησης βασισμένοι σε αλγορίθμους διαδοχικών προσεγγίσεων (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Μέθοδοι ενισχυτικής μάθησης βασισμένοι σε αλγορίθμους βελτίωσης πολιτικών (policy iteration): Policy gradient, natural policy gradient. Το ειδικότερο περιεχόμενο του κάθε σεμιναρίου καθορίζεται από τον εκάστοτε διδάσκοντα.
Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση
Τρόπος Παράδοσης |
Κατά την κρίση του εκάστοτε διδάσκοντα, με βασική μέθοδο την παρουσίαση της ύλης μέσω διαλέξεων των συμμετεχόντων. | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών |
Χρήση Learning Management System και άλλων πακέτων λογισμικού ή τεχνολογιών, κατά την κρίση του εκάστοτε διδάσκοντα. | ||||||||||
Οργάνωση Διδασκαλίας |
| ||||||||||
Αξιολόγηση Φοιτητών |
Το μάθημα, ως σεμιναριακό, εξ ορισμού δεν έχει τελική γραπτή εξέταση. Τα κριτήρια αξιολόγησης περιλαμβάνουν, κατ’ ελάχιστον, τη συγγραφή μιας ολοκληρωμένης αναφοράς σε θέμα το οποίο πραγματεύεται το μάθημα και μια δημόσια παρουσίαση στο ακροατήριο του μαθήματος. Παράλληλα, μπορούν να συμπεριληφθούν και άλλες μέθοδοι αξιολόγησης, κατά την κρίση του εκάστοτε διδάσκοντα. Το μάθημα είναι υποχρεωτικής παρακολούθησης. Για να καταχωρηθεί βαθμός, οι απουσίες δεν πρέπει να υπερβαίνουν τις τρεις (3). |
Συνιστώμενη Βιβλιογραφία
Η βιβλιογραφία καθορίζεται από τον εκάστοτε διδάσκοντα, ανάλογα με το θέμα του κάθε σεμιναρίου. Κατά το τρέχον ακαδημαϊκό έτος η βιβλιογραφία είναι η ακόλουθη:
Βιβλιογραφία για MDPs:
- Bertsekas, D. P., Dynamic Programming and Optimal Control, vol. I and II, Athena Scientific, 1995. (Later editions, vol. I, 2017 and vol. 2, 2012)
- Bäuerle, N., Rieder, U. (2011). Markov decision processes with applications to finance. Springer Science & Business Media.
- Boucherie, R. J., & van Dijk, N. M. (Eds.) (2017). Markov Decision Processes in Practice. (International Series in Operations Research & Management Science; Vol. 248). Springer. https://doi.org/10.1007/978-3-319-47766-4
- Chakravorty, J., & Mahajan, A. (2014). Multi-Armed Bandits, Gittins Index, and its Calculation. Methods and applications of statistics in clinical trials: Planning, analysis, and inferential methods, 2, 416-435.
- Feinberg, E. A., & Shwartz, A. (Eds.). (2012). Handbook of Markov decision processes: methods and applications (Vol. 40). Springer Science & Business Media.
- Koole, G. (2007). Monotonicity in Markov reward and decision chains: Theory and applications. Foundations and Trends® in Stochastic Systems, 1(1), 1-76.
- Puterman, M. L. (2014). Markov decision processes: discrete stochastic dynamic programming. John Wiley & Sons.
- Ross, S. M. (2013). Applied probability models with optimization applications. Courier Corporation.
- A concise introduction to MDPs can be found in Chapter 17 of M. Mohri, A. Rostamizadeh, and A. Talwalkar. Foundations of Machine Learning, MIT Press, 2018.
- Sigaud, O., & Buffet, O. (Eds.). (2013). Markov decision processes in artificial intelligence. John Wiley & Sons.
Βιβλιογραφία για RL:
- Agarwal, N. Jiang, S. Kakade, W. Sun. Reinforcement Learning Theory and Applications, Working Book.
- Bertsekas, D. P., Tsitsiklis, J. N. (1996). Neuro-dynamic programming. Athena Scientific.
- Bertsekas, D.P. (2019). Reinforcement learning and optimal control. Athena Scientific.
- Meyn, S.P. (2022). Control Systems and Reinforcement Learning, Cambridge University Press.
- Powell, W. B. (2007). Approximate Dynamic Programming: Solving the curses of dimensionality (Vol. 703). John Wiley & Sons.
- Sutton, R.S., Barto, A.G. (2018). Reinforcement Learning: An Introduction, MIT Press.
Συναφή επιστημονικά περιοδικά:
- Operations Research (INFORMS)
- Mathematics of Operations Research (INFORMS)
- European Journal of Operations Research (Elsevier)