{"id":4065,"date":"2020-04-09T13:49:27","date_gmt":"2020-04-09T11:49:27","guid":{"rendered":"https:\/\/sentistock.ballaun.art\/?p=4065"},"modified":"2024-06-06T10:17:08","modified_gmt":"2024-06-06T08:17:08","slug":"sentimenti-z-dobrych-badan-biora-sie-dobre-narzedzia-do-analizy-emocji","status":"publish","type":"post","link":"https:\/\/sentistocks.com\/pl\/sentimenti-z-dobrych-badan-biora-sie-dobre-narzedzia-do-analizy-emocji\/","title":{"rendered":"Sentimenti. Z dobrych bada\u0144 bior\u0105 si\u0119 dobre narz\u0119dzia do analizy emocji"},"content":{"rendered":"\t\t
Sentimenti to emocje. Pisali\u015bmy ju\u017c o tym, jak poprawnie analizowa\u0107 emocje, gdy mamy spos\u00f3b na ich automatyczny pomiar lub klasyfikacj\u0119 wzmianek. Dzisiaj opowiemy w jaki spos\u00f3b zbierali\u015bmy dane pozwalaj\u0105ce nam na stworzenie narz\u0119dzi Sentimenti. Czyli po raz kolejny piszemy jak dobrze co\u015b zrobi\u0107 – przeprowadzi\u0107 badania nad emotywnym znaczeniem tekst\u00f3w.<\/strong><\/p> Tekst zosta\u0142 napisany przy okazji wyst\u0105pienia na konferencji o uczeniu maszynowym GHOST Day<\/a>. Tu mo\u017cna przejrze\u0107 pokazywan\u0105 tam prezentacj\u0119<\/a>.<\/p> \u017beby w ramach projektu Sentimenti wytrenowa\u0107 algorytmy uczenia maszynowego i automatycznie wskazywa\u0107 emocje wyra\u017cane w tek\u015bcie, musieli\u015bmy najpierw zapyta\u0107 ludzi, jakie emocje czuj\u0105. Tak proste pytanie musia\u0142o zosta\u0107 roz\u0142o\u017cone na kilka komponent\u00f3w.<\/p> Po pierwsze – jakie emocje? Sk\u0105d mamy wiedzie\u0107, ile ich jest, czym si\u0119 r\u00f3\u017cni\u0105, jaka liczba kategorii b\u0119dzie optymalna? Zaj\u0119li si\u0119 tym specjali\u015bci od emocji, ludzie z zespo\u0142u LOBI<\/a>. W psychologii funkcjonuje kilka modeli emocji, od bardzo prostych po skomplikowane i wielowymiarowe. Zdecydowali\u015bmy si\u0119 na dwa<\/a>, kt\u00f3re obecnie nazywamy po prostu modelami sentymentu i emocji.<\/p> Wed\u0142ug modelu sentymentu<\/strong> zaproponowanego w artykule z 1977 roku przez Russella i Mehrabiana ka\u017cd\u0105 emocj\u0119 da si\u0119 opisa\u0107 na dw\u00f3ch osiach: pozytywna-negatywna oraz wysokie-niskie pobudzenie. Je\u015bli chodzi o model emocji<\/strong>, jak wielokrotnie pisali\u015bmy, wygra\u0142 ten Plutchika. Opr\u00f3cz wzgl\u0119d\u00f3w naukowych przemawia\u0142y za nim praktyczne – cz\u0119\u015b\u0107 polskiej S\u0142owosieci ju\u017c zosta\u0142a opisana emotywnie w\u0142a\u015bnie wed\u0142ug niego. Dzi\u0119ki zastosowaniu tego samego modelu (w poprawionym t\u0142umaczeniu, nad kt\u00f3rym te\u017c musieli\u015bmy popracowa\u0107) mogli\u015bmy por\u00f3wna\u0107 wyniki naszych bada\u0144 z eksperckimi anotacjami dost\u0119pnymi w tym zasobie. To jeden z naszych test\u00f3w trafno\u015bci wynik\u00f3w<\/strong>.<\/p> Wiemy, jak anotowa\u0107, ale co w\u0142a\u015bciwie? Nasze pierwsze badanie mia\u0142o skupi\u0107 si\u0119 na emotywnym znaczeniu s\u0142\u00f3w.<\/strong> Zdecydowali\u015bmy, \u017ce w ramach testowania trafno\u015bci wynik\u00f3w por\u00f3wnamy nasze z pochodz\u0105cymi ze S\u0142owosieci<\/a>, a dodatkowo baz\u0105 s\u0142\u00f3w emotywnych NAWL<\/a> (stworzon\u0105 dawniej przez naszych wsp\u00f3\u0142pracownik\u00f3w z LOBI). Wobec tego jaka\u015b cz\u0119\u015b\u0107 wyraz\u00f3w musi pokrywa\u0107 si\u0119 z tymi zasobami.<\/p> D\u0105\u017cyli\u015bmy do tworzenia listy 30 tys. s\u0142\u00f3w lub znacze\u0144<\/strong> – w ko\u0144cu mamy wiele wyraz\u00f3w wieloznacznych, kt\u00f3rych wyd\u017awi\u0119k emocjonalny tak\u017ce zmienia si\u0119 w zale\u017cno\u015bci od kontekstu. Na przyk\u0142ad depresja czyli obni\u017cenie terenu to zupe\u0142nie co\u015b innego ni\u017c zaburzenia nastroju. Uznali\u015bmy, \u017ce mo\u017cemy wpisa\u0107 na list\u0119 maksymalnie 3 znaczenia jednego s\u0142owa, a \u017ceby wskaza\u0107 uczestnikom badania, o kt\u00f3re z nich chodzi, poka\u017cemy ka\u017cde w kr\u00f3tkiej frazie: depresja terenu, leczenie depresji.<\/p> Dzi\u0119ki projektowi anotacji S\u0142owosieci (przy jej rozwijaniu tak\u017ce pracuj\u0105 \u201cnasi\u201d ludzie) wiedzieli\u015bmy, \u017ce oko\u0142o 27% s\u0142\u00f3w j\u0119zyka polskiego niesie jakie\u015b znaczenie emocjonalne<\/strong>. Z naszego punktu widzenia s\u0105 one bardziej interesuj\u0105ce ni\u017c neutralne, wi\u0119c mia\u0142y pierwsze\u0144stwo. Poza tym kontrolowali\u015bmy nasz\u0105 list\u0119 s\u0142\u00f3w pod wzgl\u0119dem frekwencji s\u0142\u00f3w (\u017ceby mie\u0107 wi\u0119cej tych cz\u0119stych, ale tak\u017ce odpowiedni procent rzadkich).<\/p> Jako zesp\u00f3\u0142 Sentimenti chcieli\u015bmy m\u00f3c powiedzie\u0107 co\u015b o wyd\u017awi\u0119ku tekst\u00f3w napisanych po polsku<\/strong>. \u017beby naprawd\u0119 tak by\u0142o, musieli\u015bmy dowiedzie\u0107 si\u0119, jak rozumie je przeci\u0119tny, typowy u\u017cytkownik tego j\u0119zyka<\/strong>. Zgodnie z regu\u0142ami naukowej sztuki musieli\u015bmy przebada\u0107 reprezentatywna grup\u0119 Polak\u00f3w<\/strong> – tak\u0105, kt\u00f3rej struktura odpowiada strukturze populacji pod wzgl\u0119dem wieku, wykszta\u0142cenia i innych istotnych cech.<\/p> Takiego badania nie da si\u0119 zrobi\u0107 po prostu przez internet, w mediach spo\u0142eczno\u015bciowych, \u0142api\u0105c ludzi na ulicy. Potrzebowali\u015bmy profesjonalist\u00f3w, wi\u0119c skorzystali\u015bmy z us\u0142ug og\u00f3lnopolskiego panelu badawczego. Nasze zapytanie ofertowe wygra\u0142a Ariadna<\/a>. Ta firma znalaz\u0142a dla nas uczestnik\u00f3w badania, ale my tak\u017ce kontrolowali\u015bmy przebieg badania. Musieli\u015bmy zapewni\u0107 odpowiedni\u0105 liczb\u0119 ocen wyd\u017awi\u0119ku ka\u017cdego s\u0142owa (minimum 50 os\u00f3b), nadawa\u0107 uczestnikom badania identyfikatory (\u017ceby m\u00f3c zestawi\u0107 ich odpowiedzi z danymi na temat wieku, miejsca zamieszkania i innych). W badaniu wzi\u0119\u0142o udzia\u0142 20 tys. os\u00f3b.<\/p> Sentyment i pobudzenie emocjonalne zwykle opisuje si\u0119 na skali.<\/strong> Z kolei modele emocji s\u0105 raczej kategorialne – pytaj\u0105, czy emocja jest, czy jej nie ma. Chyba, \u017ce m\u00f3wimy o modelu Plutchika, kt\u00f3ry od razu zak\u0142ada, \u017ce nat\u0119\u017cenie emocji mo\u017ce si\u0119 zmienia\u0107: na przyk\u0142ad od irytacji przez z\u0142o\u015b\u0107 po w\u015bciek\u0142o\u015b\u0107. W naszym modelu chcieli\u015bmy jeszcze doda\u0107 punkt zero, brak jakiejkolwiek emocji ze spektrum z\u0142o\u015bci.<\/p> Po wielu analizach i pilotach stworzyli\u015bmy autorskie narz\u0119dzie do anotacji emocji<\/strong>, dzi\u0119ki kt\u00f3remu ka\u017cde znaczenie s\u0142owa wpisanego we fraz\u0119 mo\u017cna by\u0142o oceni\u0107 na skalach b\u0119d\u0105cych operacjonalizacjami modeli sentymentu i emocji podstawowych<\/strong>. Uczestnicy badania wskazywali wyd\u017awi\u0119k s\u0142owa dzi\u0119ki interfejsowi pokazanemu poni\u017cej. Wcze\u015bniej otrzymywali tak\u017ce dok\u0142adn\u0105, prosto napisan\u0105 instrukcj\u0119, do kt\u00f3rej mogli wr\u00f3ci\u0107 w ka\u017cdym momencie badania.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Bardzo wa\u017cnym etapem konstruowania badania by\u0142o ustalenie, ile s\u0142\u00f3w ma zobaczy\u0107 ka\u017cdy uczestnik. Nie mogli\u015bmy zajmowa\u0107 im zbyt du\u017co czasu chocia\u017cby dlatego, \u017ce zm\u0119czeniu ludzie mniej uwa\u017cnie czytaj\u0105 tekst i udzielaj\u0105 niestarannych odpowiedzi<\/strong>. Idealnym uk\u0142adem okaza\u0142o si\u0119 150 s\u0142\u00f3w (fraz) w trzech turach. Przerwy mi\u0119dzy turami mog\u0142y trwa\u0107 nawet kilka dni. Dla nas liczy\u0142 si\u0119 czas sp\u0119dzany nad ka\u017cd\u0105 fraz\u0105 (zbyt kr\u00f3tkie i zbyt d\u0142ugie musia\u0142y zosta\u0107 odrzucone z wynik\u00f3w).<\/p> Nasze kolejne badanie mia\u0142o dotyczy\u0107 wyd\u017awi\u0119ku tekst\u00f3w.<\/strong> J\u0119zykoznawcy nie od dzisiaj wiedz\u0105, \u017ce od znaczenia s\u0142owa do znaczenia ca\u0142ego tekstu wiedzie kr\u0119ta droga. Gramatyka i uk\u0142ad tekstu tak\u017ce wyra\u017caj\u0105 emocje.<\/strong><\/p> Projekt zak\u0142ada\u0142, \u017ce przebadamy opinie<\/strong> – na przyk\u0142ad o hotelach i lekarzach. Zebranie opinii nie by\u0142o trudne. Dodatkowo mo\u017cna by\u0142o je podzieli\u0107 na pozytywne i negatywne ju\u017c na podstawie towarzysz\u0105cych im gwiazdek lub ocen punktowych. Wyzwaniem by\u0142o dobranie odpowiednich dziedzinowo tekst\u00f3w neutralnych. Nasz korpus wzbogacili\u015bmy z kr\u00f3tsze formy, zdania i frazy, pochodz\u0105ce mi\u0119dzy innymi z korpusu Paralingua<\/a> lub naszych bada\u0144 pilota\u017cowych. Nieco p\u00f3\u017aniej nasi koledzy pracuj\u0105cy tak\u017ce w zespole S\u0142owosieci stworzyli korpus opinii<\/a> (anotowany emotywnie ju\u017c nie przez uczestnik\u00f3w bada\u0144, tylko j\u0119zykoznawc\u00f3w).<\/p> \u017beby wyniki by\u0142y por\u00f3wnywalne z tymi dotycz\u0105cymi s\u0142\u00f3w, przebadali\u015bmy wyd\u017awi\u0119k tekst\u00f3w z udzia\u0142em reprezentatywnej grupy os\u00f3b na tych samych skalach, co s\u0142owa<\/strong>. To badanie obj\u0119\u0142o 2 tys. os\u00f3b i 7 tys. tekst\u00f3w i fraz. Ka\u017cdy uczestnik przeczyta\u0142 50 tekst\u00f3w, a ka\u017cdy tekst oceni\u0142o co najmniej 25 os\u00f3b.<\/p> Obecnie nasze narz\u0119dzia do klasyfikacji tekst\u00f3w pod wzgl\u0119dem emocji i sentymentu osi\u0105gaj\u0105 wysok\u0105 trafno\u015b\u0107 dla ka\u017cdej emocji. Najnowocze\u015bniejsze, najbardziej wymy\u015blne sieci neuronowe czy inne algorytmy nie s\u0105 w stanie tego dokona\u0107 bez dobrych danych.<\/strong> Mogli\u015bmy nauczy\u0107 nasz\u0105 sztuczn\u0105 inteligencj\u0119 emocji<\/a> tylko dzi\u0119ki temu, \u017ce zgromadzili\u015bmy dobrze skonstruowan\u0105 baz\u0119 s\u0142\u00f3w emotywnych i tekst\u00f3w ocenionych przez reprezentatywn\u0105 grup\u0119 u\u017cytkownik\u00f3w j\u0119zyka polskiego.<\/p> Jako ekipa Sentimenti ju\u017c o tym, w jaki spos\u00f3b skonstruowali\u015bmy i uczyli\u015bmy algorytmy do automatycznej analizy emocji, zar\u00f3wno na blogu<\/a>, jak i w publikacji naukowej<\/a>. Cze\u015b\u0107 naszej bazy s\u0142\u00f3w (oko\u0142o 20%) zostanie opublikowana jako korpus towarzysz\u0105cy publikacji opisuj\u0105cej szczeg\u00f3\u0142owo zbieranie i analiz\u0119 danych. Oznacza to, \u017ce ten zas\u00f3b b\u0119dzie dost\u0119pny dla naukowc\u00f3w z ca\u0142ego \u015bwiata chc\u0105cych bada\u0107 emocje w j\u0119zyku polskim. Chcemy, \u017ceby baza by\u0142a interaktywna jak lista s\u0142\u00f3w afektywnych NAWL, maj\u0105ca swoj\u0105 dedykowan\u0105 stron\u0119<\/a>.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":" Sentimenti to emocje. Pisali\u015bmy ju\u017c o tym, jak poprawnie analizowa\u0107 emocje, gdy mamy spos\u00f3b na ich automatyczny pomiar lub klasyfikacj\u0119 wzmianek. Dzisiaj opowiemy w jaki spos\u00f3b zbierali\u015bmy dane pozwalaj\u0105ce nam na stworzenie narz\u0119dzi Sentimenti. Czyli po raz kolejny piszemy jak dobrze co\u015b zrobi\u0107 – przeprowadzi\u0107 badania nad emotywnym znaczeniem tekst\u00f3w. Tekst zosta\u0142 napisany przy okazji […]<\/p>\n","protected":false},"author":4,"featured_media":5516,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[49,38],"tags":[],"class_list":["post-4065","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-project-development","category-scholary-articles"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/posts\/4065","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/comments?post=4065"}],"version-history":[{"count":6,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/posts\/4065\/revisions"}],"predecessor-version":[{"id":13166,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/posts\/4065\/revisions\/13166"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/media\/5516"}],"wp:attachment":[{"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/media?parent=4065"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/categories?post=4065"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sentistocks.com\/pl\/wp-json\/wp\/v2\/tags?post=4065"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}Jakie emocje?<\/h2>
Jakie s\u0142owa?<\/h2>
Co z uczestnikami badania?<\/h2>
Jak pyta\u0107 o wyd\u017awi\u0119k s\u0142\u00f3w?<\/h2>
\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Dalej ni\u017c s\u0142owa<\/h2>
Sentimenti to najpierw ludzie, potem AI<\/h2>