Abstract (deu)
Die schnelle Entwicklung in den Computer Vision Technologien von Industrieunternehmen wie Amazon, Google, IBM und Microsoft hat zur Entwicklung robuster Bilderkennungs-APIs geführt. Diese APIs haben die Art und Weise, wie Programmierer und Unternehmen Computer Vision nutzen, revolutioniert und die Notwendigkeit eliminiert, komplexe Systeme von Grund auf neu zu entwickeln. Obwohl diese APIs erhebliche Vorteile bieten, präsentieren sie auch bemerkenswerte Herausforderungen in Bezug auf Leistung, Kosten, Einschränkungen und Funktionalitäten. Es ist wesentlich, eine tiefgehende Analyse und einen Vergleich dieser APIs durchzuführen, um Entwicklern und Organisationen zu helfen, gut informierte Entscheidungen zu treffen. Die Auswahl der am besten geeigneten API gemäß spezifischen Anforderungen ist eine komplexe Aufgabe. Beispielsweise kann ein kleiner Fehler, wie das Fehllesen einer Autokennzeichennummer durch eine API, ernsthafte Folgen haben und zeigt die kritische Natur der genauen API-Leistung in realen Szenarien. Die aktuellen APIs bieten eine breite Palette von Dienstleistungen an, darunter Bildklassifizierung, Gesichtserkennung, Bildabruf, optische Zeichenerkennung und Handschrifterkennung. Diese APIs haben den Zugang zu leistungsstarken Künstlicher-Intelligenz-(KI)-Fähigkeiten demokratisiert, sodass Entwickler sich auf die Pipeline-Aspekte ihrer Anwendungen konzentrieren können. Um die am besten geeignete API auszuwählen, die die festgelegten Anforderungen erfüllt, empfiehlt der bestehende Ansatz, die Dokumentation einer oder mehrerer APIs zu überprüfen oder Tests an ihnen durchzuführen. Diese Methoden sind jedoch zeitaufwändig, ressourcenintensiv und möglicherweise nicht ausreichend zuverlässig. Angesichts der Unpraktikabilität, alle Dokumentationen aller API-Anbieter gründlich zu untersuchen und zu testen, ist ein effizienterer und effektiverer Auswahlprozess erforderlich. Diese Forschung zielt darauf ab, diese Computer Vision APIs zu studieren und zu vergleichen. Sie wird ihre Leistung, Kosten, Funktionalität und Einschränkungen bewerten. Zusätzlich wird ein Prototyp-Tool entwickelt, um bei der Auswahl der besten API/s für spezifische Umstände zu helfen, unter Berücksichtigung von Faktoren wie Anwendungstyp und Budgetbeschränkungen. Das Ziel dieser Studie ist es, eine tiefgehende Analyse und einen Vergleich verschiedener Computer Vision APIs durchzuführen, Aspekte wie ihre Leistung, Kosten, Funktionalität und Einschränkungen zu bewerten. Ein Entscheidungshilfesystem wird entwickelt, um bei der Auswahl der geeignetsten API für bestimmte Situationen zu helfen. Dieses System konzentriert sich auf vier Schlüsselbereiche: Leistung, Kosten, Funktionalität und Einschränkungen. Das Tool ist so konzipiert, dass es automatisch API-Dokumentationen von Websites sammelt und analysiert, unter Verwendung eines maschinellen Lernalgorithmus. Basierend auf den vom Benutzer angegebenen Kriterien, wie Kosten oder Leistung..., organisiert und präsentiert das Tool die entsprechenden Informationen für alle ausgewählten APIs in aufsteigender Reihenfolge basierend auf einem Bewertungskriterium. Zusammenfassend hat das Aufkommen fortschrittlicher Computer Vision APIs von Industrieunternehmen die Landschaft der KI-Branche erheblich verändert. Diese APIs bieten zwar immense Vorteile in Bezug auf Funktionalität und Benutzerfreundlichkeit, bringen aber auch drei Herausforderungen in Bezug auf Leistung, Kosten und Einschränkungen mit sich. Die Notwendigkeit eines umfassenden Vergleichs und einer Analyse dieser APIs ist offensichtlich, da die richtige Wahl entscheidend ist, um potenzielle Risiken zu vermeiden und die Effizienz zu maximieren. Diese Forschung hat zum Ziel, diese Bedürfnisse zu adressieren, indem sie eine eingehende Bewertung verschiedener Computer Vision APIs und die Entwicklung eines Entscheidungshilfesystems. Dieses System, das maschinelles Lernen für die Analyse nutzt, vereinfacht den Auswahlprozess, indem es die Fähigkeiten der API mit benutzerspezifischen Anforderungen abgleicht. Letztendlich trägt diese Studie nicht nur zu einem tieferen Verständnis der aktuellen API-Landschaft bei, sondern bietet auch Entscheidungshilfetools, um Entwicklern und Organisationen bei der fundierten Entscheidungsfindung zu helfen, wodurch effektivere und zuverlässigere Anwendungsentwicklungen im Bereich der Computer Vision erleichtert werden.