Σεμινάριο Επιχειρησιακής Έρευνας (MAE839)

English version
Περιγράμματα Προπτυχιακών Μαθημάτων
Τροποποίηση Περιγράμματος (η δυνατότητα αυτή απευθύνεται αποκλειστικά στα μέλη ΔΕΠ του Τμήματος)
Τμήμα Μαθηματικών
Αποθήκευση ως PDF ή Εκτύπωση (για αποθήκευση ως PDF, κάντε την σχετική επιλογή στη λίστα εκτυπωτών που θα εμφανιστεί)

Γενικά

Σχολή	Σχολή Θετικών Επιστημών
Τμήμα	Τμήμα Μαθηματικών
Επίπεδο Σπουδών	Προπτυχιακό
Κωδικός Μαθήματος	MAE839
Εξάμηνο	8
Τίτλος Μαθήματος	Σεμινάριο Επιχειρησιακής Έρευνας: Μαρκοβιανές Διαδικασίες Αποφάσεων και Ενισχυτική Μάθηση
Αυτοτελείς Διδακτικές Δραστηριότητες	Διαλέξεις, παρουσιάσεις και Ασκήσεις (Εβδομαδιαίες Ώρες Διδασκαλίας: 3, Πιστωτικές Μονάδες: 6)
Τύπος Μαθήματος	Ειδίκευσης
Προαπαιτούμενα Μαθήματα	Δεν υπάρχουν. Συνίστανται τα μαθήματα«Εισαγωγή στις Πιθανότητες»,«Στοχαστικές Διαδικασίες» και «Θέματα Επιχειρησιακής Έρευνας»: Βασικές γνώσεις θεωρίας πιθανοτήτων, θεωρίας Μαρκοβιανών αλυσίδων διακριτού χρόνου και δυναμικού προγραμματισμού.
Γλώσσα Διδασκαλίας και Εξετάσεων	Ελληνικά.
Το Μάθημα Προσφέρεται σε Φοιτητές Erasmus	Όχι.
Ηλεκτρονική Σελίδα Μαθήματος (URL)	Δείτε το eCourse, την Πλατφόρμα Ασύγχρονης Εκπαίδευσης του Πανεπιστημίου Ιωαννίνων.

Μαθησιακά Αποτελέσματα

Μαθησιακά Αποτελέσματα	Η θεωρία των διαδικασιών απόφασης Markov (MarkovDecisionProcesses-MDPs) - επίσης γνωστή ως ακολουθιακή θεωρία απόφασης (sequentialdecisionmaking), στοχαστικός έλεγχος ή στοχαστικός δυναμικός προγραμματισμός - μελετά τη ακολουθιακή βελτιστοποίηση στοχαστικών συστημάτων ελέγχοντας τον μηχανισμό μετάβασής τους με την πάροδο του χρόνου. Συγκεκριμένα, παρέχει μεθοδολογίες/αλγόριθμουςβέλτιστης επίλυσης για ένα ευρύ φάσμα προβλημάτων που αφορούν διαδοχικές αποφάσεις σε ένα τυχαίο περιβάλλον μοντελοποιημένο από μια αλυσίδα Markov. Οι MDPs έχουν εφαρμογές σε πολλούς τομείς, συμπεριλαμβανομένης της διαχείρισης εσόδων (revenuemanagement), έλεγχος ουρών αναμονής, χρηματοοικονομικά, τηλεπικοινωνίες, βιομηχανία, υγείακ.α.. Αποτελούν το μαθηματικό εργαλείο μοντελοποίησης προβλημάτων που εμφανίζεται η ενισχυτική μάθηση (ReinforcementLearning-RL). Η RLαποτελεί μια από τις πιο ανερχόμενες κατηγορίες Μηχανικής Μάθησης, λόγω της μεγάλης ευελιξίας που διαθέτουν οι αλγόριθμοι της, στην διαχείριση μεγάλων χώρων καταστάσεων και άγνωστων πιθανοτήτων μετάβασης, σε προβλήματα που μοντελοποιούνται ως MDPs. Η εν λόγω ερευνητική περιοχή παρέχει μεθόδους και τεχνικές για την προσέγγιση της βέλτιστης τιμής και στρατηγικής μεγάλης κλίμακας προβλημάτων απόφασης Markov. Στόχος του μαθήματος είναι οι φοιτητές: Να εξοικειωθούν με τη γενική θεωρία και τεχνικές σχετικά με τις MDPs. Να λάβουν γνώση των βασικών αλγοριθμικών μεθόδων για MDPs και να εξοικειωθούν με το περιβάλλον της ενισχυτικής μάθησης. Στο τέλος του μαθήματος, ο φοιτητής θα μπορεί: να αξιολογήσει θεωρήματα και μεθοδολογίες στο πεδίο των MDPs, να κατανοεί τις βασικές ιδέες και αρχές των MDPs και RL, να εφαρμόζει αλγοριθμικές μεθόδους για MDPs σε πραγματικά παραδείγματα με χρήση λογισμικού R, Matlab, να κατανοεί τις εφαρμογές της RL σε ρεαλιστικά προβλήματα.
Γενικές Ικανότητες	Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών Αυτόνομη εργασία Ομαδική εργασία Άσκηση κριτικής και αυτοκριτικής Οι ειδικότερες γενικές ικανότητες καθορίζονται από τον εκάστοτε διδάσκοντα.

Περιεχόμενο Μαθήματος

Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε πεπερασμένο χρονικό ορίζοντα, Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε άπειρο χρονικό ορίζοντα. Ιδιότητες εξίσωσης Bellman, συστολής και μονοτονίας, αλγόριθμοι βελτίωσης πολιτικών, gradient descent, mirror descent and stochastic gradient descent. Βασικές αρχές ενισχυτικής μάθησης, εισαγωγή σε μια απλουστευμένη υποκατηγορία προβλημάτων Ενισχυτικής Μάθησης γνωστή και ως Multi-Armed Bandits. Μέθοδοιενισχυτικήςμάθησηςβασισμένοισεαλγορίθμουςδιαδοχικώνπροσεγγίσεων (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Μέθοδοιενισχυτικήςμάθησηςβασισμένοισεαλγορίθμουςβελτίωσηςπολιτικών (policy iteration): Policy gradient, natural policy gradient. Το ειδικότερο περιεχόμενο του κάθε σεμιναρίου καθορίζεται από τον εκάστοτε διδάσκοντα.

Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση

Τρόπος Παράδοσης

Κατά την κρίση του εκάστοτε διδάσκοντα, με βασική μέθοδο την παρουσίαση της ύλης μέσω διαλέξεων των συμμετεχόντων.

Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών

Χρήση Learning Management System και άλλων πακέτων λογισμικού ή τεχνολογιών, κατά την κρίση του εκάστοτε διδάσκοντα.

Οργάνωση Διδασκαλίας

Δραστηριότητα	Φόρτος Εργασίας Εξαμήνου
Διαλέξεις (13Χ3)	39
Αυτοτελής Μελέτη	78
Επίλυση ασκήσεων - Εργασίες	33
Σύνολο Μαθήματος	150

Αξιολόγηση Φοιτητών

Το μάθημα, ως σεμιναριακό, εξ ορισμού δεν έχει τελική γραπτή εξέταση. Τα κριτήρια αξιολόγησης περιλαμβάνουν, κατ’ ελάχιστον, τη συγγραφή μιας ολοκληρωμένης αναφοράς σε θέμα το οποίο πραγματεύεται το μάθημα και μια δημόσια παρουσίαση στο ακροατήριο του μαθήματος. Παράλληλα, μπορούν να συμπεριληφθούν και άλλες μέθοδοι αξιολόγησης, κατά την κρίση του εκάστοτε διδάσκοντα. Το μάθημα είναι υποχρεωτικής παρακολούθησης. Για να καταχωρηθεί βαθμός, οι απουσίες δεν πρέπει να υπερβαίνουν τις τρεις (3).

Συνιστώμενη Βιβλιογραφία

Καθορίζεται από τον εκάστοτε διδάσκοντα, ανάλογα με το θέμα του κάθε σεμιναρίου.