Юристы vs генеративный ИИ: кто победит?

12.04.2023

Статьи Legal Tech искусственный интеллект

ПОДЕЛИТЬСЯ: Telegram

30 ноября 2022 г. компания OpenAI выпустила свой новый продукт — ChatGPT, ставший одним из самых вирусных в истории технологий. Всего за пять дней он перешагнул отметку в 1 млн пользователей. Менее чем за два месяца ежедневное число пользователей ChatGPT превысило 100 млн. Для сравнения: самой популярной на сегодняшний день социальной сети TikTok для достижения такого результата потребовалось девять месяцев. Что же представляет собой ChatGPT, от которого люди в очередной раз «сходят с ума»? Об этом рассказывает наш постоянный автор публикаций на тему Legal Tech Хольгер Цшайге.

В наши дни написать взвешенную статью об искусственном интеллекте и его влиянии на юридический бизнес — задача непростая. Профессиональное сообщество делится на два лагеря. На тех, кто видит эйфорию вокруг ChatGPT и его аналогов как 53-ю итерацию старой песни о роботах-юристах и, соответственно, игнорирует шумиху. И на тех, кто говорит о том, что пора устраиваться курьером в «Яндекс.Еду», поскольку конец профессии юриста близок. Spoiler alert: курьеры будут заменены роботами быстрее юристов. Найти промежуточную позицию между двумя этими лагерями и обосновать ее непросто, поскольку есть аргументы «за» и «против» у обеих сторон. Можно, конечно, попросить помощи у самого чат-бота. Если студенты получают дипломы о высшем образовании на основании работы, написанной генеративным ИИ, то зачем мучиться? Но… Во-первых, я не мучаюсь, так как написание статьи для меня возможность тренировать свой мозг. Во-вторых, так, как пишу я, ИИ не напишет. Не потому, что мой стиль такой уникальный, а потому что для ИИ очень мало материалов для обучения написанию в моем стиле, так как пишу я редко.

Что же представляет собой ChatGPT, от которого люди в очередной раз «сходят с ума»?

Что случилось?

30 ноября 2022 г. компания OpenAI выпустила свой новый продукт ChatGPT. Это чат-бот на базе их большой языковой модели (large language model, LLM) GPT 3.5. До запуска ChatGPT о существовании OpenAI мало кто знал, хотя компания на рынке с 2015 г. Ее создали инвесторы и лучшие специалисты в области искусственного интеллекта как некоммерческую организацию со стартовым капиталом в 1 млрд долларов США [1]. Разработчики ИИ и раньше пользовались продуктами OpenAI, например, языковой моделью GPT 2 и 3, и генератором картинок DALL-E. Но известной на весь мир компания стала именно благодаря ChatGP T.

Решения на основе различных моделей искусственного интеллекта существуют уже много лет. Но такого качества ответов машины в мире еще не было. ChatGPT в состоянии поддерживать полноценный человеческий диалог, результат, о котором мечтает наука с времен Элизы [2]. С момента запуска чат-бота бесчисленное количество часов было потрачено как на полезные, так и бессмысленные задачи, которые ставились людьми ChatGPT. Многие из них выглядели как TikTok-Challenge: «Давайте проверим, какие функции есть у этого чат-бота».

Юристы — не стали исключением. И хотя в декабре 2022 г. попытка Дэна Каца и Майкла Боммарито заставить алгоритм сдать адвокатский экзамен (bar exam) в США провалилась, спустя всего три месяца ChatGPT сдал экзамен на уровне 10% лучших американских студентов-юристов. Это, конечно, говорит не столько о качестве алгоритма, сколько о качестве экзамена, но темпы развития языковой модели впечатляют.

По утверждению судьи из Колумбии он впервые в истории использовал ChatGPT для принятия судебного решения. Он задал алгоритму несколько вопросов по делу и включил ответы в свое решение. Основатель компании DoNotPay планировал отправить на судебное заседание человека, адвокатом которого должен был стать ChatGPT. Идея состояла в том, что человек произносит слова, нашептанные ему роботом. Ее реализацию остановили адвокатские палаты в США, пригрозив основателю DoNotPay делом о незаконном оказании юридических услуг. Своими громкими заявлениями о том, что его компания первый робот-юрист, компания уже заработала иск от паралигала, которая тестировала его сервис и усомнилась в правдивости его слов.

Чтобы развеять последние сомнения в способностях ChatGPT творить чудеса, можно привести пример поисковика Bing, который до недавнего времени, несмотря на поддержку «Майкрософта», был практически мертв [3]. Но после интеграции с ChatGPT- 4 люди неожиданно стали активно им пользоваться [4].

Технология ChatGPT

У многих пользователей ChatGPT, особенно после выхода на рынок GPT-4, было устойчивое ощущение, что эта система «понимает» их и дает исчерпывающие и корректные ответы. Другими словами, пользователь уверен, что алгоритм думает. Это, конечно, не так. Что же тогда умеет этот чат-бот (и похожие на него системы)? Кратко это сформулировал английский писатель Нил Гейман: «ChatGPT не дает вам информацию. Он дает вам предложения, выглядящие как информация» . В этом суть больших языковых моделей, алгоритмов глубокого обучения, которые могут распознавать, обобщать, переводить, прогнозировать и генерировать текст и другой контент на основе знаний, полученных из массивов наборов данных. На сегодняшний день такие алгоритмы являются преимущественным направлением развития в области обработки естественного языка. [5]

GPT — это Generative Pre-trained Transformer. Это означает, что этот трансформер [6] был предварительно обучен и может самостоятельно генерировать тексты (после выхода GPT-4 также картинки) из анализа текстовой информаций. При этом он не понимает текст, а всего лишь определяет вероятность последующего слова после анализа предыдущих слов (токенов).

В момент выхода на рынок в марте 2022 г. модель GPT-3 представляла настоящий рывок в развитии больших языковых моделей. Это алгоритм с 175 млрд параметров, обученный на датасетах, общим объемом примерно пол-триллиона токенов [7]. Предыдущая версия — GPT-2 — имела всего лишь 1,5 млрд параметров, т.е. была на два порядка меньше. Такой рост был достигнут за два года [8]. Новейшая версия GPT-4 вышла всего за год после GPT-3 (и 3,5 месяца спустя GPT- 3.5). В последнее время OpenAI перестал раскрывать информацию о количестве параметров и объеме датасетов для обучения GPT-4, так как на этом рынке резко возросла конкуренция. Говорят, что четвертая версия имеет порядка одного триллиона параметров. На что будет способен GPT-5, который по слухам, выйдет в декабре этого года, сложно себе представить.

Чтобы генерировать текст, ChatGPT 3.5 анализирует до 4096 предыдущих к определенному слову слов и определяет вероятность последующего слова [9]. Слово с наибольшей вероятностью алгоритм ставит как следую- щее слово и так с начала, пока не готов ответ. Вероятности и контекст алгоритм берет из большого массива текстов, на котором был обучен, причем вероятность появления одного и того же слова следующим зависит от предыдущих слов. Наряду с этим на сгенерированный текст также влияют другие параметры алгоритма, заданные разработчиками. В этом механизме генерации текстов и заключаются недостатки больших языковых моделей.

Недостатки больших языковых моделей

Качество текстов зависит от массива данных для обучения модели

GPT-3 и предыдущие модели были обучены на общедоступных источниках. 60% массива составляет датасет Common Crawl, куда входит информация из общего интернета. К тому же модели обучены на определенный момент времени (например ChatGPT на осень 2021 г.), и не знают все, что произошло после этой даты. Поэтому, например, для юристов слишком рискованно слепо доверять таким большим языковым моделям. Пока модели не будут обучены на массивах информации, защищенной авторским правом, их применение в профессиональной среде будет ограничено. OpenAI заявляет, что GPT-4 был обучен не только на открытых источниках, но и на части проприетарных датасетов, но на каких конкретно — не раскрывается. Здесь надо отметить, что есть другие языковые модели, в т.ч. open source, которые пользователь самостоятельно может обучать на своих датасетах [10].

Большие языковые модели «галлюцинируют»

Довольно быстро пользователи ChatGPT заметили, что алгоритм иногда выдает явно неправильные ответы. Как будто бы не знает ответ и, соответственно, его придумывает. Это прямое следствие того, как большие языковые модели генерируют текст. Такие модели «учатся» самостоятельно (self-supervised) в отличие от моделей под управлением человека (supervised). Соответственно они могут выдать результаты, не строго совпадающие с информацией из обучающего массива данных. Например, модель может цитировать не- существующее судебное решение при анализе конкретного кейса. Эту особенность моделей надо всегда учитывать при использовании ChatGPT и других систем в профессиональной среде. Allen & Overy, внедряющие первыми систему Harvey на основе ChatGPT, просили сотрудников проверять любой результат обращения к системе. Принципиально этот подход не отличается от обычной практики в юридических фирмах — живые юристы тоже могут допускать ошибки и их работу стоит проверять. Только большие языковые модели в состоянии генерировать ошибки существенно быстрее и выдавать их за чистую правду намного убедительнее любого человека…

Модели обучаются на вашей информации

Как только алгоритм использует датасеты вашей компании для анализа/обучения (контракты, меморандумы, анализы, и т.д.), эта информация становится частью модели.

Особенно критично это в случаях, когда датасеты не анонимизированные, т.е. содержат персональные данные клиентов или сотрудников. Но и другая проприетарная информация, например, интеллектуальная собственность, может случайно или преднамеренно стать частью модели. Ранее во Франции уже запретили применение искусственного интеллекта при предиктивном анализе судебной практики. А на днях итальянское ведомство по защите персональных данных временно запретило пользование ChatGPT на территории страны.

Это не единственные недостатки больших языковых моделей (и искусственного интеллекта в целом), но они сильнее всего влияют на возможность применения в профессиональной среде. Есть еще проблема «черного ящика» — отсутствие понимания, как работают алгоритмы конкретной системы. С этим связана проблема предвзятости алгоритмов. Она обусловлена параметрами, заданными разработчиками алгоритма / модели, а также ограниченным датасетом для обучения. Вопросам этики использования ИИ стоит посвятить не одну статью, в целый номер журнала. Недавняя инициатива «Future of Life Institute» приостановить на полгода разработку больших систем искусственного интеллекта отражает опасения многих о будущем человечества рядом с искусственным интеллектом.

The End of Lawyers?

Впервые многие работники умственного труда реально озаботились будущим своих профессий. Юристов уже давно пугают искусственным интеллектом. Еще в далеком 2008 г. Ричард Сасскинд ставил вопрос о скором конце профессии юриста на фоне технологического прогресса. В 2013 г. Осборн и Фрей оценивали риск автоматизации разных профессий, но для юристов он тогда был невысок (менее 5%). В 2017 г. McKinsey подсчитала, что 23% работы юриста можно автоматизировать посредством существующих технологий. Были запущены legaltech-решения, обещающие заменить юристов-людей робоюристами и робосудьями. В 2018 г. на Legalgeek Thomson Reuters даже раздавал банки с пивом, сваренным по рецепту искусственного интеллекта (весьма неплохим, между прочим). Все это, конечно, на какое-то время впечатлило юристов, но, поскольку речь шла в основном об автоматизации рутинной, малоэффективной и дешевой работы, они вскоре успокоились.

Теперь же все иначе. Если раньше среди специалистов по ИИ наблюдался консенсус — то, что сложно для человека, легко для ИИ, и наоборот — то с выходом новых генеративных моделей искусственный интеллект взялся и за интеллектуальную работу человека. Получается, что теперь ИИ может делать как то, что человеку сложно, так и то, что ему легко. Юристы начинают это понимать. По опросу Lexis Nexis, в марте этого года 39% юристов и 46% студентов юрфаков выразили уверенность по поводу того, что генеративный ИИ существенно повлияет на работу юристов. Так, о генеративном ИИ слышали 88% юристов, это на 31% больше, чем общество в целом. Правда, 81% опрошенных юристов пока не пользуется решениями, и только 2% применяют их ежедневно. Те, кто уже применяет генеративный ИИ в своей профессиональной работе, за исключением поиска юридической информации (legal research), используют этот инструмент в основном для общего повышения эффективности своей деятельности, но нужно учитывать, что ChatGPT и подобным моделям всего несколько месяцев, а адаптация технологий в юридической сфере идет, как правило, медленно…

Настоящую волну эмоций среди юристов вызвало проведенное Goldman Sachs исследование влияния ИИ на экономический рост. По его результатам, 44% работы юриста в США и Европе можно автоматизировать посредством ИИ. Речь идет как о полном вытеснении труда человека, так и об ИИ в качестве вспомогательного инструмента для него. По оценкам Goldman Sachs, ИИ может заменить почти 40% рабочих мест на рынке юридических услуг, в то время как технология будет дополнять около 60% оставшихся рабочих мест в отрасли. В других отраслях картинка для «белых воротничков» не лучше. Также стоит отметить, что исследование обращает внимание и на большой потенциал технологии ИИ в создании новых рабочих мест и профессий.

Что же теперь делать юристам? Прежде всего сохранять спокойствие. Перефразировав Марка Твена, можно сказать, что «новость о смерти юридической профессии сильно преувеличена». В последние годы я говорил о том, что мы с вами не доживем до появления сильного искусственного интеллекта. В целом я не изменил своего мнения после выхода ChatGPT, но, с учетом фанатизма многих юристов в отношении ЗОЖ, возможно, кто-то все-таки доживет. По словам Гейтса, мы всегда переоцениваем изменения, которые случатся в ближайшие два года, и недооцениваем те, которые произойдут в ближайшие 10 лет. Темп развития возможностей современных моделей ИИ впечатляет, но нельзя недооценивать мозг человека. Искусственный интеллект все же стоит рассматривать как инструмент. Как говорил Кевин Келли, основатель журнала Wired: «ИИ станет подобен электричеству. Мы добавим его ко всему, что собираемся сделать, чтобы сделать это более эффективно». При применении ИИ, как и любых других инструментов, человек должен понимать, что делает.

Это понимание — весь объем знаний и опыта человека — будет главным дифференциатором среди живых специалистов. Борьба за рабочие места идет не между человеком и машиной, она идет между людьми. От умения человека «общаться» с алгоритмами зависит качество результатов генеративного ИИ. Андрей Карпати, один из основателей OpenAI, не зря говорит «Самый популярный новый язык программирования — английский». На первый взгляд появление такой новый профессии, как «prompt engineer» может касаться напрасным. Но ИИ обычный человеческий запрос любого заказчика «делайте нам красиво» не воспринимает. Чем конкретнее запрос и контекст, тем ценее результат для бизнеса. Это еще долго останется прерогативой человека. А пока таких специалистов мало, спрос большой, даже в юридическом бизнесе. Британския юридическая фирма Mishcon de Reya ищет «legal prompt engineer». Зарплату не раскрывают, но в других отраслях такие специалисты получают от $133 000 до $335 000 в год.

Что из этого следует? Бороться с технологическим прогрессом бессмысленно. Технологиям безразличны наши переживания. В 1980-е годы преподаватели математики вышли на улицы протестовать против использования электронных калькуляторов в школах. Сегодня калькуляторы есть у всех, и преподаватели от этого не страдают. Следовательно, лучше тратить свою энергию на освоение новых технологий и думать, как с их помощью опередить конкурентов.

С применением генеративного ИИ корпоративные юристы способны осуществлять свою заветную мечту — становиться бизнес-партнерами, а не работать в качестве исполнителей типовых задач. С учетом ограничений больших языковых моделей их можно успешно применять в работе с документами (для анализа договоров на начальной стадии, быстрого создания драфтов), для сопровождения сделок (первоначальный due diligence) или ускорения поиска информации. В e-Discovery в последние годы ИИ уже успешно использовали для выявления важной информации из большого массива данных. Такие инструменты, как ChatGPT, поднимают эту работу на новый уровень. Управление кейсами (осо- бенно административная часть этой задачи) станет более простым, если поручить координацию ИИ. Чат-боты могут существенно улучшить внутреннюю и внешнюю коммуникацию юридических фирм. Аналитик рынка Legal Tech Зек Абрамовиц, конечно, пошутил, когда опубликовал свою «обновленную карту рынка legaltech», но ведь в каждой шутке есть доля правды…

Ряд вендоров уже включил возможности ChatGPT в свои решения. Harvey, в который инвестировал сам OpenAI, уже упоминал об этом. Вслед за Allen & Overy PwC Legal приобрел это решение для всех своих 4 тысяч юристов. Casetext выпустил Co-Pilot, систему на базе GPT-4, которая была обучена на дата- сетах самой компании. По мнению многих юристов, тестировавших Co-Pilot, система дает впечатляющие результаты. OpenAI недавно запустил платформу плагинов, которые позволяют соединять много систем управления с их чат-ботом. Большие языковые модели других разработчиков, например Bard от Google, также будут доступны для интеграции в собственные решения и процессы. Уже доступна платформа Google Document AI для работы с документами.

Как будет выстраиваться наша работа с развитием все более мощных моделей искусственного интеллекта, полностью зависит от нас. Еще в 1951 г. Алан Тьюринг прогнозировал вероятность того, что, начав работать, метод машинного мышления быстро превзойдет наши слабые силы. По его мнению, машины могли бы разговаривать друг с другом, чтобы оттачивать свое остроумие. Он полагал, что от нас зависит, когда машины возьмут управление на себя.

[1] Сегодня OpenAI состоит из некоммерческой OpenAI Inc. и коммерческой OpenAI LP.
[2] Виртуальный собеседник, компьютерная программа Джозефа Вейценбаума, написанная им в 1966 г.
[3] Доля поисковика на рынке в марте 2023 г. составляла 2,87%.
[4] Майкрософт является крупным инвестором в OpenA I.
[5] Natural Language Processing (NLP) – общее направление искусственного интеллекта и математической лингвистики.
[6] Архитектура глубоких нейронных сетей, представленная в 2017 г. исследователями из Google Brain.
[7] Не надо углубляться в эти термины, они приведены лишь для сравнения.
[8] На момент выхода GPT-3 был в 10 раз больше самой крупной существующей до этого большой языковой модели Turing NLG от «Майкрософта».
[9] Две версии ChatGPT– 4, соответственно, 8192 и 32768 предыдущих слов, что существенно расширяет контекст.
[10] Bloom, Dolly, Claude и др.

Хольгер Цшайге

генеральный директор "Инфотропик Медиа", Член правления ELTA, Член Advisory Board Global Legal Tech Hub

Статьи Legal Tech искусственный интеллект

МЕРОПРИЯТИЯ

21сен

Российский международный арбитражный конгресс (RIAC)

12ноя

Форум «Слияния и поглощения в России»

СПЕЦПРОЕКТЫ

Про Процесс спецпроект с Orchards для тех, кто хочет выигрывать судебные дела ИИ: ОХОТА ЗА РАЗУМОМ Российский бизнес за рубежом в условиях санкций