Как насочва Facebook към Cambridge Analytica модел наистина работи

„КакУвеличи изображения

Cambridge Analytica & Facebook

  • Facebook може да бъде изправен пред многомилиардна глоба за Кеймбридж Скандал с Analytica
  • В близо 500 страници отговори Facebook прегражда някои въпроси на сенаторите
  • Cambridge Analytica подава документи за фалит на фона на “обсада” от отрицателно внимание
  • Cambridge Analytica се изключва след потребителските данни на Facebook скандал
  • Изграждане на Facebook „прост начин да изчистите бисквитките и история ”

Вижте още истории

Изследователят, чиято работа е в центъра на вълненията Анализ на данните във Facebook и политически анализ на Cambridge Analytica рекламирането разкри, че методът му е много подобен на този един Netflix използва за препоръчване на филми.

В имейл до мен, ученият от университета в Кеймбридж Александър Коган обясни как статистическият му модел обработва данни за Facebook Cambridge Analytica. Той твърди, че работи, както и повече традиционни методи за насочване към вотер, базирани на демографски данни като раса, възраст и пол.

Ако бъде потвърден, акаунтът на Коган ще означава цифрово моделиране Използваната Cambridge Analytica едва ли е била виртуалната кристална топка са заявили. Но числата, които Коган предоставя също показват какво е – и не е действително възможно чрез комбиниране на лични данни с машина учене за политически цели.

Що се отнася до една ключова загриженост за обществеността обаче, числата на Коган предлагат информация за личността на потребителите или „Психографията“ беше просто скромна част от начина, по който моделът е насочен граждани. Това не беше личностен модел строго погледнато, но по-скоро такава, която свали демографията, социалните влияния, личност и всичко останало в голяма корелираща буца. Това подходът „накисване-всичко-на-корелация-и-обадете-го-личност“ изглежда да са създали ценен инструмент за кампания, дори ако продуктът е продадената не беше толкова, колкото беше таксувана.

Обещанието за насочване към личността

Вследствие на разкритията, които консултанти на кампанията на Тръмп Cambridge Analytica използва данни от 50 милиона потребители във Facebook за насочете дигиталната политическа реклама през 2016 г. в САЩ президентски избори, Facebook загуби милиарди на фондовата борса ценност, отвориха се правителства от двете страни на Атлантическия океан разследвания и зараждащо се социално движение призовава потребителите до #DeleteFacebook.

Но ключов въпрос остана без отговор: Беше ли Кеймбридж Analytica наистина е в състояние ефективно да насочва съобщенията на кампанията към гражданите въз основа на техните личностни характеристики или дори техните „Вътрешни демони“, както се твърди, че фирмата е подала сигнали?

Ако някой знаеше какво е направила Cambridge Analytica масивна информация от Facebook, това ще бъде Александър Коган и Йосиф Канцлер. Това беше тяхното стартиране, Global Science Research, които събраха информация за профила от 270 000 потребители във Facebook и десетки милиони техни приятели, използвайки приложение за тест на личността наречен „този вашият дигитален живот“.

Част от моите собствени изследвания се фокусира върху разбирането на машината методи на обучение и моята предстояща книга обсъжда как цифрови фирмите използват препоръчителни модели за изграждане на аудитории. Имах представа за това как е работил моделът на Коган и канцлера

Затова изпратих имейл на Коган да попитам. Коган все още е изследовател в Университет в Кеймбридж; неговият сътрудник канцлер сега работи в Facebook. В забележителен показ на академичната любезност, Коган отговори.

Отговорът му изисква известно разопаковане и известна информация.

От наградата Netflix до „психометрия“

Още през 2006 г., когато все още беше компания за електронна поща, Netflix предложи награда от 1 милион долара на всеки, който разработи по-добър начин да прави прогнози за класирането на филмите на потребителите, отколкото компанията вече имах. Изненадващ топ конкурент беше независим софтуер разработчик, използващ псевдонима Simon паника , чийто основен подход беше в крайна сметка включени във всички записи на най-добрите отбори. Funkадаптирана техника, наречена „единично разлагане на стойност“, кондензиране на оценките на потребителите на филми в серия от фактори или компоненти – по същество набор от изведени категории, класирани по важност. Както Фънк обясни в публикация в блога,

„Така например, категория може да представлява екшън филми, с филми с много действие в горната част и бавни филми в отдолу и съответно потребители, които харесват екшън филмите в отгоре и тези, които предпочитат бавни филми отдолу. ”

Факторите са изкуствени категории, които не винаги са като вид категории, които хората биха измислили. Най-важните фактор в ранния модел на Netflix на Funk беше определен от потребителите, които обичат филми като „Пърл Харбър“ и „Сватбеният плановик“ мразещи филми като „Изгубени в превода“ или „Вечното слънце на неподправеният ум. ”Неговият модел показа как може да се намери машинното обучение корелации между групи хора и групи от филми, това самите хора никога не биха забелязали.

Общият подход на Функ използва 50 или 100 най-важни фактори както за потребителите, така и за филмите, за да направят достойно предположение как всеки потребител би оценил всеки филм. Този метод, често наричан намаляване на размерността или матрично факторизиране, не беше ново. Изследователите на политическите науки бяха показали, че подобни техники използването на данни за поименно гласуване може да предвиди гласовете на членовете на Конгрес с 90 процента точност. В психологията “голямата петица” моделът също се използва за прогнозиране на поведението чрез обединяване в групи личностни въпроси, на които обикновено се отговаря сходно.

И все пак моделът на Функ беше голям напредък: той позволи техниката да работим добре с огромни масиви данни, дори и с много липсващи данни – като данните от Netflix, където типичният потребител е оценил само няколко дузина филми от хилядите в библиотеката на компанията. | Повече ▼ повече от десетилетие след приключването на конкурса за награда Netflix, базиран на SVD методи или свързани модели за неявни данни все още са инструмент на избор за много уебсайтове, за да предскажат какво потребителите ще четат, гледат или Купува.

Тези модели могат да предсказват и други неща.

Facebook знае дали сте републиканец

През 2013 г. изследователите от университета в Кеймбридж Михал Косински, Дейвид Стилълвел и Торе Грейпел публикуваха статия за предсказанието мощност на Facebook данни, използвайки информация, събрана чрез онлайн тест за личност Първоначалният им анализ беше почти идентичен с този, използван в наградата Netflix, като се използва SVD за категоризирайте както потребителите, така и нещата, които са им харесали, в топ 100 фактори.

Документът показа, че фактор модел, направен с Facebook на потребителите Само „харесва“ беше 95 процента с точност при разграничаване между черно-бели респонденти, 93 процента точни при разграничаване мъже от жени и 88 процента точни при разграничаване на хората които идентифицираха като гей мъже от мъже, които идентифицираха като прави. То може дори правилно да различи републиканците от демократите 85 процент от времето. Освен това беше полезно, макар и не толкова точно, за прогнозиране на оценките на потребителите за личността „Голямата петица“ тест.

В отговор настъпи публичен протест; в рамките на седмици Facebook имаше направи харесванията на потребителите по подразбиране лични

Коган и Канцлер, също изследователи от университета в Кеймбридж по това време, започват да използват данни от Facebook за насочване на избори като част от сътрудничество с компанията-майка на Cambridge Analytica SCL. Коган покани Косински и Стилюел да се присъединят към неговия проект, но не се получи. Съобщава се, че Косински подозира Коган и Канцлерът може да е разработил обратен модел на „харесвания“ във Facebook за Cambridge Analytica. Коган отрече това, казвайки своя проект „Изградихме всички наши модели, използвайки собствени данни, събрани с помощта на собствени софтуер. ”

Какво всъщност направиха Коган и канцлерът?

Докато следях развитието на историята, стана ясно Коган и канцлер наистина бяха събрали много свои собствени данни чрез приложението thisisyourdigitallife. Те със сигурност биха могли да имат изгради предсказуем SVD модел като този, представен в Косински и Публикувани изследвания на Стилълел

Затова изпратих имейл на Коган, за да попитам дали това е направил. До известна степен за моя изненада той ми отвърна.

„Не използвахме точно SVD“, пише той, отбелязвайки, че SVD може борба, когато някои потребители имат много повече „харесвания“ от други. Вместо това Коган обясни: „Техниката беше нещо, което всъщност сме разработихме себе си … Това не е нещо, което е публично без да навлиза в подробности, Коган описа техния метод като „многостепенен подход за съвместно възникване“.

Съобщението му обаче продължи, за да потвърди, че подходът му е такъв наистина подобен на SVD или други методи за матрична факторизация, като в конкурса за награда Netflix и конкурса Kosinki-Stillwell-Graepel Facebook модел. Намаляването на размерите на данните във Facebook беше сърцевина на неговия модел.

Колко точно беше?

Коган предположи, че точният използван модел няма значение, все пак – важното е точността на неговите прогнози. Според за Коган, „връзката между прогнозираните и реалните резултати… беше около [30 процента] за всички личностни измерения. ” сравнение, предишните резултати на човек от Big Five са около 70 до 80 процента точни при прогнозиране на резултатите им, когато те вземат отново тест.

Твърденията на Коган за точност не могат да бъдат независимо проверени, от Разбира се. И всеки в разгара на такъв грандиозен скандал може да има стимул за подценяване на приноса му. В неговия появата на Си Ен Ен, обясни Коган на все по-недоверчив Андерсън Купър, че моделите всъщност не са работили много добре.

Учен: Не знаех данни, използвани за насочване към избирателите

Всъщност точността, която Коган твърди, изглежда малко ниска, но правдоподобно. Косински, Стилъл и Граел отчитат сравними или малко по-добри резултати, както има няколко други академични проучвания използване на цифрови отпечатъци за прогнозиране на личността (макар и някои от тези проучвания имаха повече данни, отколкото просто „харесвания“ от Facebook). то е изненадващо, че Коган и канцлерът ще се справят с проблемите на проектирайки свой собствен патентован модел, ако не са на разположение изглежда е също толкова точно.

Важно е обаче, че точността на модела е в оценките на личността позволява сравняване на резултатите на Коган с други изследвания. Публикувани модели с еквивалентна точност при предсказване на личността всички са много по-точни в отгатването на демографските и политическите променливи.

Например, подобен модел SVD на Kosinski-Stillwell-Graepel беше 85 процента точен при отгатването на партийната принадлежност, дори и без използвайки всякаква информация за профила, различна от харесвания. Моделът на Коган имаше подобна или по-добра точност. Добавя се дори малко количество информацията за демографските данни на приятели или потребители вероятно ще увеличи тази точност над 90 процента. Предположения за пол, раса, сексуалност ориентация и други характеристики вероятно биха били повече от 90 процента също.

Критично, тези предположения биха били особено добри за повечето активни потребители на Facebook – хората, на които моделът беше предимно свикнал цел. Потребителите с по-малко активност за анализиране вероятно не са включени Facebook все пак много.

Когато психографията е предимно демографска

Знанието как е изграден моделът помага да се обясни Кеймбридж Очевидно противоречивите твърдения на Analytica относно ролята – или липса на това – че личността профилиране и психография играе в нейното моделиране. Всички технически са в съответствие с това, което Коган описва.

Модел като Коган би дал оценки за всяка променлива достъпна за всяка група потребители. Това означава, че щеше автоматично оценете личните резултати на Big Five за всеки избирател. Но тези оценките за личността са изходът на модела, а не входът. всичко моделът знае, че определени Facebook харесват, а определени потребители, са склонни да се групират.

С този модел Cambridge Analytica може да каже, че е така идентифициране на хора с ниска отвореност за опит и висока невротизъм. Но същият модел, с абсолютно същите прогнози за всеки потребител може също толкова точно да твърди, че идентифицира по-малко образовани по-възрастни републиканци.

Информацията на Коган също помага да се изясни объркването дали всъщност Cambridge Analytica е заличила своя фейсбук данни, когато изглежда, че моделите, изградени от данните, все още циркулират, и дори се развива допълнително. Цялата точка на едно измерение редукционният модел е математически да представя данните в по-опростен вид форма. Сякаш Cambridge Analytica взе много висока резолюция снимка, преоразмерите я да е по-малка и след това изтрихте оригинални. Снимката все още съществува – и толкова дълго, колкото Кеймбридж Моделите на Analytica съществуват, данните също ефективно.

РазговорътТази статия първоначално е публикувана в Разговор.

Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: