Inženjering Klica

Analiza raspoloženja 101: Kako je Sproutov tim za znanost o podacima izgradio hibridni model

Kao što će vam reći bilo tko tko je ikada bio u vezi, ljudske su emocije složen pojam. To se posebno odnosi na trgovce koji pokušavaju shvatiti kvalitativne prednosti - vrijednost koja nadilazi osnovnu funkcionalnost - njihovih proizvoda ili usluga. Nije teško razumjeti čime se bavi vaš proizvod, ali znate li kako se osjećaju vaši potrošači?

Bilo bi kad biste koristili analizu raspoloženja za socijalno slušanje kako biste nefiltrirana razmišljanja svoje društvene mreže usmjerili na djelotvorne strateške uvide. Uzimajući sve društveni podaci dostupni na Twitteru i kategoriziranje pozitivnog, negativnog ili neutralnog osjećaja glavni je poduhvat i ne postoje dvije jednake metode. Zato je HASHTAGS izgradio hibridni sustav analize sentimenta koji kombinira dva primarna pristupa, Popis pravila i Strojno učenje.

Popisi pravila

Jedan od najjednostavnijih načina rješavanja analize osjećaja je korištenje pravila ili rječnika stvorenih čovjekom. Ovim se pristupom sustav oslanja na popis riječi ili fraza koji se izravno preslikavaju na određeni osjećaj. Na primjer, bilo koji Tweet koji sadrži riječ 'visokih pet' mogao bi biti označen kao pozitivan, dok bi Tweet koji sadrži 'užasno' bio negativan. Ovakvi sustavi vrlo su prilagodljivi i mogu se proširiti tako da uključuju tisuće pravila za riječi i izraze.

Loša strana je da se sustavi pravila bore s tweetovima koji se podudaraju s proturječnim pravilima, poput 'Film nije bio tako užasan kao što sam očekivao.' Ovdje bi se 'užasno' moglo označiti negativnim, dok bi 'očekivano' bilo pozitivno. Sukobljena pravila Tweet označavaju kao neutralan, dok bi ga neki ljudski čitatelji protumačili kao blago pozitivan, a drugi kao blago negativan.

Dodatno ograničenje sustava temeljenih na pravilima je oslanjanje na ljudski napor i razumijevanje. Jezik se brzo razvija (posebno na Twitteru), a sustav zasnovan na pravilima zahtijeva da netko pruži stalan tok novih pojmova i fraza. Ažuriranje sustava sentimenta nije uvijek glavni prioritet i sustav može brzo zastarjeti. Čak i uz budno praćenje, može biti teško identificirati promjene jezičnih trendova i odrediti kada treba dodati nova pravila.

Strojno učenje

Koriste se napredniji sustavi za analizu osjećaja Strojno učenje (ML) tehnike (koje se ponekad nazivaju i umjetnom inteligencijom ili Obrada prirodnog jezika ). Strojno učenje je obitelj tehnika koja koristi statistiku i vjerojatnost za prepoznavanje složenih obrazaca koji se mogu koristiti za označavanje predmeta.

Za razliku od sustava koji se temelje na pravilima, ML sustavi su dovoljno fleksibilni da otkriju sličnosti koje čovjeku nisu odmah vidljive. Gledajući mnoge, mnoge primjere, sustav uči obrasce koji su tipično povezani s pozitivnim, negativnim ili neutralnim osjećajima.

Na primjer, sustav analize osjećaja ML mogao bi otkriti da su tweetovi koji sadrže riječ 'kiša' i završavaju jednim uskličnikom negativni, dok su tweetovi s 'kišom' i dva uskličnika pozitivni. Čovjek možda neće primijetiti ovaj obrazac ili razumjeti zašto se javlja, ali ML sustav može ga koristiti za vrlo točna predviđanja.

Iako sustavi strojnog učenja mogu donijeti izvrsne rezultate, oni imaju nekoliko nedostataka. Kad u jeziku postoji puno raznolikosti, ML sustavu može biti teško procijediti buku i odabrati uzorke. Kada postoje jaki obrasci, oni mogu zasjeniti rjeđe obrasce i uzrokovati da sustav ML ignorira suptilne znakove.

Sproutov pristup

Da bismo izgradili naš sustav analize sentimenata, dizajnirali smo hibridni sustav koji kombinira najbolje od pristupa temeljenog na pravilima i strojnog učenja. Analizirali smo desetke tisuća Tweeta kako bismo identificirali mjesta na kojima se ML modeli bore i uveli strategije utemeljene na pravilima kako bismo prevladali te nedostatke.

Dopunjavajući statističke modele ljudskim razumijevanjem, izgradili smo robustan sustav koji se dobro izvodi u širokom rasponu postavki.

Sve o točnosti

Na površini, analiza osjećaja izgleda prilično izravno - samo odlučite je li Tweet pozitivan, negativan ili neutralan. Ljudski jezik i osjećaji su složeni, ali otkrivanje osjećaja u Tweetu odražava ovu složenost.

Razmotrite ove tweetove. Jesu li pozitivni, negativni ili neutralni?

https://twitter.com/alex/status/917406154321420289

Čovječe je upravo zatražio 6 pića espressa u Starbucksu ... ŠEST. Prokletih ŠEST !!

- Simone Eli (@SimoneEli_TV) 31. listopada 2017

Možda se osjećate sigurni u svoje odgovore, ali velike su šanse da se svi ne bi složili s vama. Istraživanja su pokazala da se ljudi slažu samo oko osjećaja Tweeta 60-80% od vremena.

1212 anđeoskih brojeva

Možda ste skeptični. I mi smo bili.

Kako bi to testirali, dva člana našeg tima za znanost o podacima točno su isti skup od 1.000 tweetova označili kao pozitivan, negativan ili neutralan. Shvatili smo da „svakodnevno radimo s Tweetovima; vjerojatno ćemo se postići gotovo savršen dogovor između nas dvoje. '

Izračunali smo rezultate, a zatim smo ih dvostruko i trostruko provjerili. Istraživanje je bilo na mjestu - složili smo se samo za 73% tweetova.

Izazovi u analizi sentimenta

Istraživanja (zajedno s našim malim eksperimentom) pokazuju da analiza osjećaja nije jednostavna. Zašto je tako zeznuto? Prošetajmo kroz nekoliko najvećih izazova.

Kontekst

Tweetovi su maleni snimak u vremenu. Iako su neki samostalni, tweetovi su često dio neprekidnog razgovora ili referentne informacije koje imaju smisla samo ako poznajete autora. Bez tih tragova može biti teško protumačiti autorove osjećaje.

To radim i sa žlicama za kavu.

- Renée Barrow (@RmBarrow) 14. listopada 2017

Sarkazam

Otkrivanje sarkazma još je jedan okus kontekstnog izazova. Bez dodatnih informacija, sustavi analize osjećaja često brkaju doslovno značenje riječi s onim kako su namijenjene. Sarkazam je aktivno područje akademskog istraživanja, tako da ćemo u bliskoj budućnosti možda vidjeti sustave koji razumiju snark.

Usporedbe

Sentiment također postaje nezgodan kad Tweets uspoređuju. Ako provodim istraživanje tržišta povrća i nekoga s tweetovima, 'Mrkva je bolja od tikve', je li ovaj Tweet pozitivan ili negativan? Ovisi o vašoj perspektivi. Slično tome, netko bi mogao cvrkutati: 'Tvrtka A je bolja od tvrtke B.' Ako radim u tvrtki A, ovaj je Tweet pozitivan, ali ako sam u tvrtki B, negativan je.

Emoji

Emojiji su jezik svoj . Iako emojiji poput prilično očitog osjećaja, drugi su manje univerzalni. Izgrađujući naš sustav analize osjećaja, pomno smo promatrali kako ljudi koriste emojije, utvrdivši da čak i uobičajeni emojiji mogu izazvati zabunu. gotovo jednako koristi u značenju 'tako sretna što plačem' ili 'tako tužna što plačem'. Ako se ljudi ne mogu složiti oko značenja emojija, ne može se ni sustav za analizu osjećaja.

Definiranje neutralnog

Čak i 'neutralni' sentiment nije uvijek izravan. Razmislite o naslovu vijesti o tragičnom događaju. Iako bismo se svi složili da je događaj užasan, većina naslova vijesti trebala bi biti činjenične, informativne izjave. Sustavi za analizu sentimenta osmišljeni su tako da prepoznaju osjećaje autora sadržaja, a ne odgovor čitatelja. Iako se može činiti čudnim vidjeti strašne vijesti s oznakom 'neutralne', ona odražava autorovu namjeru priopćavanja činjeničnih podataka.

Sustavi za analizu sentimenta također se razlikuju po tome koliko je neutralan definiran. Neki smatraju da je neutralna kategorija sveprisutna za bilo koji Tweet u kojem sustav ne može odlučiti između pozitivnog ili negativnog. U tim sustavima, 'neutralno' je sinonim za 'nisam siguran'. U stvarnosti, međutim, postoji mnogo tweetova koji ne izražavaju osjećaje, kao što je primjer u nastavku.

Venti obično ima dvije injekcije espressa, ali ovaj je kupac tražio 14 https://t.co/jzOi93RRd9

- TAKSI (@designtaxi) 30. listopada 2017

Naš sustav izričito klasificira neemocionalne tweetove kao neutralne, umjesto da koristi neutralnu kao zadanu oznaku za dvosmislene tweetove.

Procjena analize sentimenta

S toliko izazova u analizi osjećaja, isplati se napraviti domaću zadaću prije nego što uložite u novi alat. Dobavljači pokušavaju pomoći u rješavanju složenosti usredotočujući se na statistiku o točnosti svog proizvoda. Točnost ipak nije uvijek usporedba između jabuka i jabuka. Ako planirate koristiti točnost kao mjerni štapić, evo nekoliko stvari koje biste trebali pitati.

Je li prijavljena točnost veća od 80%?
Budući da se ljudi slažu jedni s drugima samo 60-80% vremena, ne postoji način za stvaranje testnog skupa podataka za koji će se svi složiti da sadrži 'ispravne' oznake osjećaja. Što se osjećaja tiče, 'ispravno' je subjektivno. Drugim riječima, ne postoji zlatni standard koji bi se koristio u ispitivanju točnosti.

stalno viđam 444

Gornja granica točnosti sustava analize osjećaja uvijek će biti sporazum na ljudskoj razini: oko 80%. Ako prodavač tvrdi više od 80% točnosti, bilo bi dobro biti skeptičan. Trenutna istraživanja sugeriraju da je čak 80% točnosti malo vjerojatno; vrhunski stručnjaci na tom području obično postižu točnost sredinom do gornjih 60-ih.

Koliko se kategorija osjećaja predviđa?
Neki dobavljači procjenjuju točnost samo tweetova koje su ljudski procjenitelji utvrdili kao definitivno pozitivne ili negativne, isključujući sve neutralne tweetove. Puno je lakše da se točnost sustava čini vrlo visokom u radu s jako emotivnim tweetovima i samo dva moguća ishoda (pozitivni ili negativni).

Međutim, u divljini je većina tweetova neutralna ili dvosmislena. Kad se sustav procijeni na temelju samo pozitivnih i negativnih, nemoguće je znati koliko se sustav nosi s neutralnim tweetovima - većinom onoga što ćete zapravo vidjeti.

Koje su vrste tweetova uključene u njihov testni set?
Trebao bi se izgraditi i testirati sustav analize osjećaja na Tweetovima koji su reprezentativni za stvarne uvjete. Neki sustavi za analizu sentimenta izrađuju se pomoću tweetova specifičnih za domenu koji su filtrirani i očišćeni kako bi sustav bio što lakši za razumijevanje.

Na primjer, dobavljač je možda pronašao već postojeći skup podataka koji uključuje samo snažno emotivne tweetove o zrakoplovnoj industriji, s tim da su isključeni svi tweetovi neželjene pošte ili teme izvan njega. To bi dovelo do visoke točnosti, ali samo kada se koristi na vrlo sličnim tweetovima. Ako radite na drugoj domeni ili primite tweetove izvan teme ili neželjene pošte, vidjet ćete mnogo nižu točnost.

Koliki je bio testni skup podataka?
Sustave za analizu sentimenta trebalo bi procijeniti na nekoliko tisuća tweetova kako bi se izmjerile performanse sustava u mnogim različitim scenarijima. Nećete dobiti pravu mjeru točnosti sustava kada se sustav testira samo na nekoliko stotina tweetova.

Ovdje u Sproutu, svoj smo model izgradili na kolekciji od 50 000 tweetova izvučenih iz slučajnog uzorka s Twittera. Budući da naši tweetovi nisu specifični za domenu, naš sustav analize osjećaja dobro se izvodi na širokom rasponu domena.

Uz to, odvojeno predviđamo za pozitivne, negativne i neutralne kategorije; ne primjenjujemo samo neutralno kad druga predviđanja propadnu. Naša je točnost testirana na 10.000 tweetova, od kojih niti jedan nije korišten za izgradnju sustava.

Pogledajte Sproutovu analizu raspoloženja uživo sa slušateljima

Sva istraživanja na svijetu nisu zamjena za vrednovanje sustava iz prve ruke. Dajte našem novom sustavu za analizu osjećaja test vožnju u okviru našeg najnovijeg skupa alata za socijalno slušanje, Slušatelji i pogledajte kako vam to odgovara. U konačnici, najbolji alat za socijalno slušanje je onaj koji zadovoljava vaše potrebe i pomaže vam da društvenu mrežu dobijete veću vrijednost. Dopustite nam da vam pomognemo da započnete danas.

Podijelite Sa Svojim Prijateljima:

Saznajte Svoj Broj Anđela