米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能:Innovative Tech(AI+)

  • 📰 topitmedia
  • ⏱ Reading Time:
  • 35 sec. here
  • 4 min. at publisher
  • 📊 Quality Score:
  • News: 24%
  • Publisher: 51%

トップニュース ニュース

生成AI,Aiplus TOP Story

米Appleに所属する研究者らは、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデルを提案した研究報告を発表した。

Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、アイコン検索、テキスト検索、ウィジェットリスティングなど)を行える。またスクリーンショットの詳細な説明、質疑応答の対話、スクリーンの全体的な機能や目的を推測するタスクなども行える。Ferret-UIは、同社が2023年10月に発表した画像内の形や場所を言葉で説明するAI「Ferret」をベースに開発。しかし、UIの画面は一般的に自然画像よりも細長いアスペクト比を持ち、アイコンやテキストなどの小さなオブジェクトが多数存在するという特徴がある。そのため、画面全体を低解像度のまま入力するだけでは、重要な視覚情報が失われてしまう恐れがあった。

この問題を解決するために、Ferret-UIでは「any-resolution」(anyres)技術を導入。この技術により、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、ディテールを拡大し、豊かな視覚的特徴を活用できるようになった。学習には、基本的なUIタスクと高度なUIタスクのデータを生成する。基本的なUIタスクには、アイコン認識やテキスト検出などがあり、これらはモデルにUIエレメントのセマンティクスと空間的な位置関係を理解させるために重要である。Ferret-UIの能力を評価するために、研究者らは参照タスクとグラウンディングタスクに関する14種類のモバイルUIタスクからなる包括的なテストベンチマークを開発した。

このベンチマークを用いてiPhoneとAndroidで評価した結果、Ferret-UIは他のオープンソースのMLLMやGPT-4Vと比較して、基本的なUIタスクにおいて大幅に優れたパフォーマンスを示すことが明らかに。さらに、高度なタスクにおいても、FuyuやCogAgentといった既存のモデルを上回る性能を発揮した。Source and Image Credits: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan. Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs.

生成AI Aiplus TOP Story

 

コメントありがとうございます。コメントは審査後に公開されます。
このニュースをすぐに読めるように要約しました。ニュースに興味がある場合は、ここで全文を読むことができます。 続きを読む:

 /  🏆 93. in JP

日本 最新ニュース, 日本 見出し

Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性もAppleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。
ソース: gigazine - 🏆 80. / 51 続きを読む »

ChatGPTをkintoneで使える連携プラグイン「Smart at AI for kintone Powered by GPT」を試してみる2023年10月、M-SOLUTIONSからkintoneでChatGPTが利用できるプラグイン「Smart at AI for kintone Powered by GPT」がリリースされた。kintoneのフィールド情報を元にカスタマイズしたプロンプトをChatGPTに送信し、その出力をkintoneに格納してくれるのが特徴だ。
ソース: asciijpeditors - 🏆 98. / 51 続きを読む »

「Claude 3 Opus」が「GPT-4」を抜き1位に--Chatbot Arenaランキングで人工知能(AI)スタートアップのAnthropicが提供する「Claude 3 Opus」が、AIチャットボットの能力を比較できる「Chatbot Arena」のランキングで、OpenAIの「GPT-4」を抜いて、首位に輝いた。
ソース: cnet_japan - 🏆 100. / 51 続きを読む »

「Copilot GPT Builder」登場! 知識や機能をカスタマイズして“自分専用Copilot GPT”を作る個人向けの有料プランとなる「Copilot Pro」で、オリジナルのCopilot GPT(CopilotによるAIチャット)を作成できる「Copilot GPT Builder」の提供が開始された。
ソース: internet_watch - 🏆 23. / 63 続きを読む »

マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載マイクロソフトは、「Copilot」の無料版に搭載していた大規模言語モデル(LLM)「GPT-4」を「GPT-4 Turbo」に置き換えたと発表した。
ソース: cnet_japan - 🏆 100. / 51 続きを読む »

企業用ChatGPTサービス「ChatPro」が「GPT-4 Turbo」の最新版に対応予定。GPT-4の改良版モデル。数学・コーディングでの性能が向上。企業用ChatGPTサービス「ChatPro」が「GPT-4 Turbo」の最新版に対応予定。GPT-4の改良版モデル。数学・コーディングでの性能が向上。 株式会社ナレッジセンスのプレスリリース
ソース: PRTIMES_JP - 🏆 114. / 51 続きを読む »