Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija

Cilj rada je pokušati, u kontekstu testiranja modela ChatGPT na studentskim zadacima iz područja statistike, prepoznati slučajeve u kojima veliki jezični modeli pokazuju slično ponašanje ljudskom razmišljanju, a u kojima „razmišljaju“ na drugačiji način te identificirati prilike, rizike i ograničenj...

Full description

Bibliographic Details
Main Author: Jasminka Dobša
Format: Article
Language:English
Published: University of Rijeka 2023-01-01
Series:Politehnika
Subjects:
Online Access:https://hrcak.srce.hr/file/449948
Description
Summary:Cilj rada je pokušati, u kontekstu testiranja modela ChatGPT na studentskim zadacima iz područja statistike, prepoznati slučajeve u kojima veliki jezični modeli pokazuju slično ponašanje ljudskom razmišljanju, a u kojima „razmišljaju“ na drugačiji način te identificirati prilike, rizike i ograničenja kod primjene umjetne inteligencije u nastavi. Analizirat će se mogućnosti i ograničenja velikih jezičnih modela te načini na koje se u ovom brzo rastućem području nastoji nadići postojeće pristranosti i nedostatke. U radu će se testirati chatbot na temelju velikoga jezičnoga modela GPT-4 ChatGPT u znanju uvodnog statističkog kolegija koji se predaje na drugoj godini studija studentima informatičkog studija. Testiranje je provedeno ručnim unošenjem 170 kviz pitanja iz područja statistike u preglednik ChatGPT-a. Pitanja su podijeljena u tri kategorije: teorijska pitanja u kojim se reproducira znanje, teorijska pitanja u kojim se testira razumijevanje područja i zadaci. Kviz pitanja su postavljena na hrvatskom jeziku i analizirani su odgovori dobiveni na hrvatskom jeziku. Uspoređena je točnost rješavanja kviz pitanja za studente i ChatGPT po kategorijama pitanja korištenjem Wilcoxonovog testa sume rangova. Rezultati pokazuju da ChatGPT daje statistički bolje rezultate od studenata u kategorijama teorijskih pitanja u kojima se traži reprodukcija znanja i razumijevanje, dok su kod rješavanja zadataka studenti uspješniji, ali razlika u točnosti nije statistički značajna (p<0,01).
ISSN:2584-5373
2584-6264