Проблеми та ризики, пов’язані з ШІ

An icon of a key

Проблеми навколо ШІ є серйозними. Ризики реальні. Іноді вони виражаються істерично, але, коли занурюєшся в суть, вплив ШІ має потенціал бути надзвичайно руйнівним.

Є стільки питань та проблем, пов’язаних із ШІ, що вони заповнюють цілі томи. Ось хмарка слів на теми, які я моніторю. Я впевнений, що я пропускаю кілька.

Хмарка слів навколо терміну 'ШІ', з пов'язаними термінами, такими як 'проблеми', 'етика' та 'людство', що оточують його.

Є багато інформації про кожну з цих тем, і я закликаю вас читати якомога глибше. Можливо, ви дійдете висновку, що ризики перевищують вигоди, і що ви не хочете переслідувати використання ШІ, будь то особисто або у вашій організації. Це рішення приносить свої ризики; звичайне, що залишаєшся позаду. Але це особистий вибір.

Якщо ви загуглите “книги щодо ризиків ШІ”, ви знайдете добірку вартих уваги томів. Недавній подкаст, який я знайшов особливо страшним, був розмова Езри Кляйна з Даріо Амодеєм, співзасновником та генеральним директором Anthropic (компанії, що розробляє Claude.ai). Ви дізнаєтеся, що ці компанії усвідомлюють ризики. Амодей звертається до внутрішньої системи класифікації ризиків, яка називається A.S.L., для “Рівнів безпеки ШІ” (не американська жестова мова). Ми зараз на ASL 2, “системи, які показують ранні ознаки небезпечних можливостей — наприклад, здатність давати інструкції щодо створення біологічної зброї.” Він описує ASL 4 як “дозволяючи державним акторам значно підвищити їхню здатність… де ми б хвилювалися, що Північна Корея чи Китай чи Росія можуть значно посилити свої наступальні можливості в різних військових сферах за допомогою ШІ таким чином, що це надасть їм значну перевагу на геополітичному рівні.” Страшні речі.

У цьому похмурому контексті я підкреслю найважливіші питання для письменників та видавців.

Порушення авторських прав?

An icon of a key

Питання авторських прав є складними та неоднозначними. Видається певним, що деякі книги, які все ще перебувають під авторським правом, були включені в навчання деяких великих мовних моделей (LLM). Але це, безумовно, не означає, як деякі автори бояться, що вся їхня робота була зібрана у кожну і всі великі мовні моделі.

Питання авторських прав є як специфічними, так і широкими. Відомо, що всі LLM навчаються на відкритому веб-просторі — всьому, що можна зібрати з 1,5 мільярда сайтів в інтернеті сьогодні, чи то газетні статті, пости в соціальних мережах, веб-блоги і, очевидно, транскрипти відео YouTube.

Доведено, що принаймні одна з LLM поглинула справжній текст тисяч книг, які не є в суспільному надбанні.

Чи було легально поглинати весь цей текст для допомоги у створенні мільярдних компаній з ШІ, без будь-якої компенсації авторам? Компанії ШІ наводять аргумент щодо добросовісного використання; суди врешті-решт вирішать. Навіть якщо це було законно, чи було це етично чи морально? Етика виглядає менш складною, ніж юридичні міркування. Ви вирішуйте.

Закони, що стосуються авторських прав, очевидно, не передбачали унікальні виклики, які ШІ приносить до питання, і пошук юридичних рішень займе час, можливо, роки. (Якщо ви хочете заглибитися в те, чому закони не підходять для конкретної проблеми, прочитайте чудову статтю А. Федер Купера та Джеймса Гріммельмана під назвою “Файли в комп’ютері: Авторське право, Запам’ятовування і Генеративний ШІ.”)

Ось список тринадцяти найбільш відомих справ, не всі з яких стосуються книг; також зображень та музики. А ось ще один список, який оновлює статус усіх судових позовів.

Авторські права та ШІ для авторів

An icon of a key

Автори стикаються з додатковими питаннями щодо можливості авторських прав на контент, створений ШІ.

Позиція Управління з авторських прав США щодо можливості авторських прав на контент, створений ШІ стверджує, що ШІ не може мати авторського права, оскільки йому бракує правового статусу автора. Це має сенс. Але це передбачає, що 100% роботи створено ШІ. Як обговорювалося в інших місцях, мало хто з авторів дозволить ШІ створити цілу книгу. Скоріше це буде 5%, або 10% або… І тут Управління з авторських прав спотикається (як і я б).

У більш недавньому рішенні Управління дійшло висновку, що графічний роман, що складається з тексту, написаного людиною, у поєднанні із зображеннями, створеними сервісом ШІ Midjourney, є об’єктом авторського права, але окремі зображення не можуть бути захищені авторським правом. Ой!

An icon of a key

Достатньо сказати, що автори та видавці повинні бути пильними до розвитку питань авторських прав на різних фронтах.

Які довгострокові наслідки?

Дехто порівнює поточне судочинство з позовом проти Google Books, який зайняв 10 років для юридичного вирішення. Хто знає, як довго триватиме процес апеляції для цих справ. Тим часом видавці розумно діють так, ніби компанії ШІ програють, що, принаймні теоретично, піддає будь-кого, хто ліцензує або, можливо, навіть використовує Chat AI, певній умовній відповідальності.

Але це не найсерйозніше питання для видавців. Це сприйняття. Для багатьох авторів, деяких відомих, деяких маловідомих, джерело було отруєне. ШІ є радіоактивним у спільноті письменників та видавців. Все, що навіть натякає на ШІ, викликає інтенсивну критику.

Існує багато прикладів. У недавньому інциденті Angry Robot, британський видавець, “присвячений найкращому у сучасній дорослій науковій фантастиці, фентезі та WTF,” оголосив, що використовуватиме програмне забезпечення ШІ під назвою Storywise, щоб сортувати очікувану велику кількість поданих рукописів. Це зайняло лише п’ять годин, щоб компанія відмовилася від плану та повернулася до “старої скриньки.

Нестерпна дилема для видавців у використанні інструментів ШІ всередині: якщо ваші автори дізнаються, вам буде важко витримати результативний шторм. Я вважаю, що у видавців немає вибору, окрім як бути сміливими, прийняти (принаймні частину) інструментів, чітко пояснити, як ці інструменти навчаються і як вони використовуються, і продовжувати рухатися вперед.

У Великобританії Товариство авторів займає жорстку позицію: “Попросіть вашого видавця підтвердити, що він не буде використовувати ШІ в значній мірі для будь-якої мети, пов’язаної з вашою роботою, наприклад, для коректури, редагування (включаючи перевірку автентичності та перевірку фактів), індексації, юридичної експертизи, дизайну та макету або чого-небудь ще без вашої згоди. Ви можете заборонити озвучення аудіокниг, переклад та дизайну обкладинки, виконані ШІ.”

Здається, що Гільдія авторів приймає той факт, що “видавці починають досліджувати використання ШІ як інструменту в звичайній діяльності, включаючи редакційні та маркетингові цілі”. Я не думаю, що багато членів Гільдії розуміють це так само.

Ліцензування контенту компаніям ШІ

Більшість видавців та багато авторів шукають способи ліцензувати контент компаніям ШІ. У кожного є своя ідея щодо умов ліцензування і вартості їх контенту, але принаймні обговорення вже розпочато.

Існує кілька стартапів, які хочуть співпрацювати з видавцями (а в деяких випадках і з окремими авторами). Calliope Networks та Created by Humans обидва цікаві в цьому відношенні.

В середині липня Copyright Clearance Center, довгий час головний гравець індустрії в колективному ліцензуванні авторських прав, оголосив про наявність “прав на повторне використання штучного інтелекту (ШІ) в межах своїх щорічних ліцензій на авторські права (ACL), рішення для ліцензування контенту на рівні підприємства, що пропонує права на мільйони робіт для компаній, що підписуються.”

Publishers Weekly висвітлили оголошення, цитуючи Трейсі Армстронг, президента та генерального директора CCC, яка сказала: “Можливо бути за ШІ та за авторське право, і поєднувати ШІ з повагою до творців.”

Хоча це не всеосяжна, ймовірно, це прорив у наближенні видавництва до певного ступеня співпраці з розробниками великих мовних моделей.

Занадто пізно уникнути ШІ

An icon of a key

Для авторів та видавців, які воліють не контактувати з ШІ, новини погані: ви використовуєте ШІ сьогодні і користувалися ним протягом багатьох років.

Штучний інтелект у різних формах вже інтегровано у більшість програмних інструментів та сервісів, які ми використовуємо щодня. Люди покладаються на ШІ для перевірки орфографії та граматики у програмах, таких як Microsoft Word або Gmail. Microsoft Word та PowerPoint використовують ШІ для надання рекомендацій щодо написання, пропозицій з дизайну та макету тощо. Віртуальні асистенти, такі як Siri та Alexa, використовують обробку природної мови для розуміння голосових команд та відповідей на запитання. Електронні поштові сервіси використовують ШІ для фільтрації повідомлень, виявлення спаму та надсилання сповіщень. ШІ забезпечує роботу чат-ботів для обслуговування клієнтів та генерує рекомендації щодо продуктів на основі вашої історії покупок.

І більшість цього базується на великих мовних моделях, як це відбувається з ChatGPT.

Для автора чи редактора сказати: “Я не хочу, щоб ШІ використовувався на моєму рукописі,” загалом неможливо, якщо тільки вони і їх редактори не працюють на друкарських машинках і з олівцями.

Вони можуть спробувати сказати: “Я не хочу, щоб генеративний ШІ” використовувався для їхньої книги. Але це важко розділити і нарізати. Програмне забезпечення для перевірки граматики спочатку не було побудоване на генеративному ШІ. Grammarly додав його як інгредієнт до свого продукту, як і всі інші перевірки орфографії та граматики. Генеративний ШІ також є основним у маркетинговому програмному забезпеченні.

Коли автори використовують ШІ

Ще один аспект, пов’язаний з авторами та використанням ШІ, має схожість з питанням авторських прав, обговореним вище. В крайньому випадку, ми бачимо 100% контент, створений ШІ, який публікується на Amazon. Більшість з цього (все це?) є жахливої якості, але це не заважає йому бути опублікованим. (Див. також розділ Amazon.) Більш тривожним для видавців є подання, створені ШІ. Так, ШІ підвищує кількість, але великі видавці вже мають фільтр для кількості. Фільтри називаються агентами. Вони ті, хто повинен буде вирішити, як впоратися з проблемою кількості, і, очевидно, вони повинні знайти рішення, яке не використовує ШІ.

Це щось на зразок екзистенційної проблеми—чи хочу я публікувати книгу, написану “машиною”? Для більшості видавців це однозначне “ні”. Легко. А що щодо книги, де 50% контенту було згенеровано великою мовною моделлю під наглядом здібного автора? Хмм, давайте спробуємо “ні” і на це. Добре: а що щодо 25%, або 10%, або 5%? Де провести межу?

І, тепер, коли ви зайнялися проведенням меж, як ви вирішуєте дилему, що перевірка правопису та граматичні інструменти тепер частково залежать від генеративного штучного інтелекту? А як щодо інструментів транскрибування на основі ШІ, таких як Otter.ai, або функція транскрибування, вбудована в Microsoft Word?

Я не можу знайти жодного видавця, який би заявив, що не публікуватиме роботу з заздалегідь визначеною кількістю тексту, згенерованого ШІ. Ось що каже Гільдія авторів з цього приводу:

“Якщо у вашому рукописі включено помітну кількість згенерованого ШІ тексту, персонажів або сюжету, ви повинні повідомити про це вашого видавця і також повідомити читача. Ми не вважаємо за необхідне авторам розкривати використання генеративного ШІ, коли він використовується лише як інструмент для мозкового штурму, генерації ідей або для редагування тексту.”

Звісно, “помітна” кількість не визначена (Оксфорд визначає це як “достатньо велика, щоб бути поміченою або вважатися важливою”), але в дописі пояснюється, що включення більше ніж “де мініміс згенерованого ШІ тексту” порушуватиме більшість видавничих контрактів. Де мініміс, у правових термінах, не точно визначено, але загалом означає більш-менш те саме, що й “помітна”.

Чи можна виявити ШІ у письмі?

Я провів вебінар на тему виявлення ШІ, спонсорований BISG, у травні 2024 року. Відеозапис доступний онлайн на YouTube. Джейн Фрідман запропонувала всебічний огляд вебінару у своєму інформаційному бюлетені Hot Sheet.

Для багатьох авторів токсичність ШІ означає тримати його подалі від своїх слів. Видавці несуть особливий тягар—вони не створюють текст, але, після публікації, вони несуть значну відповідальність за текст. Ми бачили багато динаміту, що вибухав поблизу запальних книг, чи то через соціальні наслідки змісту, чи то через плагіат чужих слів і ідей. Тепер з ШІ ми стикаємося з новим набором етичних та правових питань, жодне з яких не було окреслено у видавничій школі.

Частина цього здається схожою на те, про що хвилюються люди щодо студентів, що використання ШІ є якимось чином шахрайством, схожим на списування зі статті у Вікіпедії або просто прохання друга написати ваше есе.

Один з наших спікерів вебінару, викладач Хосе Боуен, поділився своїм розкриттям інформації для студентів. Це не зовсім те, що використовується для автора, але воно демонструє деякі “рівні ризику” використання ШІ.

Шаблон угоди про розкриття інформації для студентів

  • Я виконав всю цю роботу самостійно без допомоги друзів, інструментів, технологій або ШІ.

  • Я зробив перший чернетку, але потім попросив друзів/сім’ю, ШІ інструменти для парафразування/ граматики/перевірки на плагіат прочитати її та дати пропозиції. Я зробив такі зміни після цієї допомоги:

    • Виправив правопис і граматику

    • Змінив структуру або порядок

    • Переписав цілі речення/абзаци

  • Я застряг на проблемах і використав тезаурус, словник, зателефонував другу, пішов до центру допомоги, використав Chegg або інші постачальники рішень.

  • Я використав ШІ/друзів/репетиторів для допомоги у генеруванні ідей.

  • Я використав допомогу/інструменти/ШІ для створення плану/першого чернетки, який я потім відредагував. (Опишіть характер вашого внеску.)

І отже видавець може скласти щось подібне для своїх авторів. Скажімо, автор розкриває найвищий рівень: я інтенсивно використовував ШІ, а потім відредагував результати. Що тоді? Ви автоматично відхиляєте рукопис? Якщо так, то чому?

І, тим часом, якщо ви уважно стежите, ви дізнаєтеся, що рукопис, який ви щойно прочитали і полюбили, автор якого клявся, що його навіть не перевіряли на граматику в Grammarly, насправді міг бути на 90% згенерований ШІ, автором, що вміє приховувати його використання.

Тоді ви змушені переосмислити питання. Воно стає: “Чому я так чортівськи рішуче налаштований виявити цю річ, яку неможливо виявити?”

Частково це тривожне занепокоєння щодо можливості отримання авторських прав на текст, створений ШІ. Бюро авторських прав не надає захисту авторських прав на 100% текст, створений ШІ (або музику, або зображення тощо). Але що щодо 50% тексту, створеного ШІ? Ну, ми покриватимемо лише ті 50%, які створені автором. А як ви дізнаєтеся, яка половина? Ми повернемося до вас з відповіддю на це питання.

Чи не було б чудово, якби ви могли просто ввести кожен рукопис у якесь програмне забезпечення, яке б сказало вам, чи було використано ШІ при створенні тексту?

Залишимо осторонь питання про те, що єдиний спосіб зробити це - використання інструментів ШІ, важливішим питанням є, чи буде програмне забезпечення (достатньо) точним? Чи можу я на це покладатися, щоб дізнатися, чи було використано ШІ при створенні рукопису? І чи можу я бути впевненим, що воно не видасть “хибних спрацьовувань” - вказавши, що ШІ було використано, коли насправді його не було?

Зараз на ринку багато програмного забезпечення, яке вирішує ці проблеми. Багато академічних досліджень, що оцінюють це програмне забезпечення, вказують на його ненадійність. Текст, створений ШІ, проходить непомітно. Гірше того, текст, який не був створений ШІ, помилково позначається як такий, що був “забруднений”.

Але видавці книг захочуть мати якісь запобіжні заходи. Видається, що, в найкращому випадку, ці інструменти можуть попередити вас про можливі проблеми, але завжди потрібно буде перевіряти двічі. Тож, можливо, це може попередити вас про тексти, які потрібно ретельніше перевіряти, ніж інші? Чи є це ефективністю?

Справжня ефективність буде знайдена в тому, щоб переступити за межі занепокоєння щодо походження тексту, залишаючи наші існуючі критерії щодо його якості.

Втрата робочих місць

“Вас не замінить ШІ. Вас замінить хтось, хто знає, як використовувати ШІ.” —Анонім

Втрата робочих місць через впровадження ШІ може бути значною. Оцінки різняться, але цифри виглядають похмуро. Є очевидні приклади: безпілотні таксі у Сан-Франциско усувають потребу в таксистах і водіях сервісів спільного використання. Діагностика з підтримкою ШІ може зменшити потребу в медичних техніках.

Оптиміст у мені вказує на приклад впровадження електронних таблиць і їх вплив на зайнятість. Як видно з графіку нижче, зайнятість у сфері “Бухгалтерський облік, підготовка податкової звітності, бухгалтерський облік та послуги з обробки заробітної плати” майже подвоїлася з 1990 року - це навряд чи є звинуваченням електронних таблиць та інших технологій, які значною мірою автоматизували ці завдання.

Графік лінії, що показує кількість працівників у сфері бухгалтерського обліку, підготовки податкової звітності, бухгалтерського обліку та послуг з обробки заробітної плати з 1990 по 2020 рік.

Дослідження Ітана Молліка з Boston Consulting Group (BCG) було експериментом, який мав на меті краще зрозуміти вплив ШІ на роботу, особливо на складні та насичені знаннями завдання. Дослідження залучило 758 консультантів BCG, випадковим чином призначених використовувати або не використовувати GPT-4 від OpenAI для двох завдань: інновацій у створенні продуктів та вирішення бізнесових проблем. Дослідження вимірювало продуктивність, поведінку та ставлення учасників, а також якість і характеристики виходу ШІ.

Серед висновків було, що “ШІ працює як вирівнювач навичок. Консультанти, які набрали найгірші результати при оцінці на початку експерименту, мали найбільший приріст у своїй продуктивності, 43%, коли їм дозволили використовувати ШІ. Найкращі консультанти також отримали приріст, але менш значний.” Повна стаття є розкриваючою, і як всі роботи Молліка, провокативною, але доступною.

Освіта

Освіта була в центрі дебатів за і проти ШІ. Введення ШІ в класи в основному розглядається як прокляття або принаймні виклик. Інші освітяни, такі як ключовий спікер PW Ітан Моллік, приймають ШІ як чудовий новий інструмент для викладачів; Моллік наполягає, щоб його студенти працювали з ChatGPT.

Найкраща книга на цю тему - Навчання з ШІ: Практичний посібник до нової ери людського навчання Хосе Антоніо Боуена та С. Едварда Вотсона.

Я не збираюся заглиблюватися в освітнє видавництво в цій книзі - це величезна тема, яка вимагає окремого звіту. Можливо, видавнича діяльність стає другорядною в межах освіти: інструменти ШІ є програмним забезпеченням, а не контентом, по суті.

Майбутнє пошуку

An icon of a key

Пошук є складною темою в ШІ. Я закликаю вас відвідати perplexity.ai та You.com, щоб отримати уявлення про те, куди прямують ці технології. Наступного разу, коли ви захочете розпочати пошук у Google, зайдіть на Perplexity замість цього. Це не здаватиметься кардинально іншим - це схоже на графіки знань, які Google часто показує на правій стороні екрану пошуку або іноді вгорі списку результатів пошуку. Замість того, щоб натискати на посилання, інформація буде прямо перед вами.

Перплексія йде далі, перефразовуючи інформацію, яку вона збирає з кількох джерел, щоб вам справді не потрібно було клацати на посилання. Вона надає посилання на свої джерела, але зазвичай їх не потрібно відкривати — ви вже отримали відповідь на своє запитання.

Ця начебто скромна зміна має величезні наслідки для кожної компанії та кожного продукту, які хоча б частково залежать від відкриття через пошукові системи. Якщо шукачі більше не відправляються на ваш сайт, як ви можете залучити їх і перетворити на клієнтів? Проста відповідь – ніяк.

Джоанна Пенн стоїть на передньому краї думок про вплив нових технологій на писання та видавництво. Вона торкнулася цієї складної теми у своєму подкасті та блозі минулого грудня.

Це все ще ранні дні для штучного інтелекту та трансформації пошуку.

Низькоякісні книги на Amazon

An icon of a key

Книги, створені штучним інтелектом, на Amazon є проблемою, хоча їх серйозність може бути більш інтуїтивною, ніж буквальною. З одного боку, ці книги засмічують онлайн-книгарню неякісним та плагіатним контентом, іноді використовуючи імена реальних авторів, щоб обманути клієнтів і скористатися їхньою репутацією. Книги є не тільки неприємністю для читачів, але й загрозою для авторів, потенційно позбавляючи їх заслужених роялті. Книги, створені штучним інтелектом, також впливають на рейтинг та видимість реальних книг та авторів на сайті Amazon, оскільки вони конкурують за ті самі ключові слова, категорії та рецензії.

Миленьке кошеня сидить на пляжі з квітами навколо і підписом 'Смішні та милі фото котів, які не можна побачити у світі'.

Amazon тепер вимагає від авторів розкривати деталі використання ШІ при створенні їхніх книг. Без сумніву, це можна зловживати.

Спробуйте пошукати на Amazon “книги, створені штучним інтелектом”. Їх багато. Деякі з результатів — книжки-інструкції про використання ШІ для створення книг. Але інші, безсоромно, створені штучним інтелектом. “Смішні та милі фото котів - Ви не можете побачити такі типи фото у світі - ЧАСТИНА-1” (стет) приписується Раджасекару Касі. Немає жодних деталей його (?) біографії на сторінці автора, але шість інших назв приписуються цьому імені. Книга, опублікована 26 серпня 2023 року, не має відгуків і рейтингу продажів. Неграмотний заголовок електронної книги не відповідає неграмотному заголовку на обкладинці друкованої книги.

Але інші автори явно широко використовують ШІ при створенні своїх книг і не розкривають це. Як я вже обговорював вище, виявлення використання ШІ практично неможливе з умілими «фальсифікаторами». Розмальовки, журнали, путівники та кулінарні книги створюються за допомогою інструментів ШІ за набагато коротший час і з меншими зусиллями, ніж традиційне видавництво.

Пошукайте “корейська веганська кулінарна книга” і ви знайдете першу назву, написану Джоанн Лі Молінаро, на першому місці. Але відразу за нею йдуть інші назви, які явно є підробками. “Корейська веганська кулінарна книга: Прості та смачні традиційні та сучасні рецепти для любителів корейської кухні” має два відгуки, включаючи один, який зазначає, що “це не веганська кулінарна книга. Усі рецепти містять м’ясо та яйця.” Але книга займає #5,869,771 у рейтингу продажів, порівняно з оригіналом, який займає #2,852 у списку.

Важко визначити ступінь завданої шкоди. Нічого доброго з цього не вийде, але наскільки це погано?

Amazon має політики, які дозволяють видаляти будь-яку книгу, яка не забезпечує “позитивного клієнтського досвіду”. Правила вмісту Kindle забороняють “описовий вміст, призначений для введення клієнтів в оману або який не точно представляє вміст книги.” Вони також можуть блокувати “вміст, який зазвичай розчаровує клієнтів.” Це величезний обсяг, який збиває з пантелику спостерігачів Amazon? Чи є інша причина?

Упередженість

LLM-системи навчаються на тому, що вже було опубліковано в Інтернеті. Те, що було опубліковано в Інтернеті, рясніє упередженнями, і тому LLM-системи відображають ці упередження. І, звичайно, не тільки упередження, але й ненависть, відображені в їхньому навчанні, а тепер і потенційний вихід у створених ШІ словах та зображеннях. Порнографія є ще одним природним бенефіціаром дивовижної здатності ШІ створювати зображення, і є останні тривожні історії про молодих жінок, які знаходять сфабриковані оголені зображення, їхні однокласники-чоловіки є ймовірними підозрюваними. The New York Times повідомила окремо про збільшення кількості онлайн-зображень сексуального насильства над дітьми.

Автори та видавці повинні бути обізнані про ці вбудовані обмеження під час використання інструментів ШІ.